WO2012101169A1 - Automatic extraction of information about semantic relationships from a document pool using a neural system - Google Patents

Automatic extraction of information about semantic relationships from a document pool using a neural system Download PDF

Info

Publication number
WO2012101169A1
WO2012101169A1 PCT/EP2012/051134 EP2012051134W WO2012101169A1 WO 2012101169 A1 WO2012101169 A1 WO 2012101169A1 EP 2012051134 W EP2012051134 W EP 2012051134W WO 2012101169 A1 WO2012101169 A1 WO 2012101169A1
Authority
WO
WIPO (PCT)
Prior art keywords
words
word
neurons
text
association
Prior art date
Application number
PCT/EP2012/051134
Other languages
German (de)
French (fr)
Inventor
Eckart Schröder-Bergen
Solveig HOFMANN
Maria Winkler
Original Assignee
SUPERWISE Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUPERWISE Technologies AG filed Critical SUPERWISE Technologies AG
Publication of WO2012101169A1 publication Critical patent/WO2012101169A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a method for the automated generation and / or recognition of context information in plain text files by means of a computer using a neural network, wherein the neural network is structured in several levels, so-called layers.
  • the object of the invention is therefore to provide a method with which, in a simple and advantageous manner, using a neural network, a pool with formalized basic knowledge about meaning relations between different words, i. a so-called "association knowledge" is generated.
  • the inventive method for the automated generation and / or recognition of context information in plain text files by means of a computer using a neural network, wherein the neural network is structured in several levels, comprises the following steps:
  • Assigning individual neurons to words in at least a first level wherein the assignment of individual neurons to a specific word is done by training and updating using association relations between words of the plain text population and wherein an additional word neuron is created for each new word;
  • different words in a respective textual context can be updated by means of new and / or existing association relations generated between these words, and additional synapses are generated in the neural network, wherein the synapses for representing the association relations during training of plaintext are respectively updateable Relevance value is assigned, which defines the strength of the association relation;
  • the context information is automatically recognized in plain text inventories. This is done using the neural network, where the assignment to the respective context is realized via association relations between different words. Each such word-pair relationship has the meaning: "Word A also comes to mind in word A.”
  • the association relations are achieved through the representation of synapses in the neural network, and in the neural network there are neurons in a first level each associated with a particular word. This level of the network is referred to as a "word layer". Whenever a previously unknown word is found during a training process, advantageously another neuron is automatically created in the word layer, which is permanently assigned to this new word.
  • association relationships are advantageously generated automatically from the trained texts. This determines which words occur together in a sentence. If the words A and B occur in a sentence, a relationship A - B and a relationship B - A are built up or amplified.
  • Each association relationship also has a quantitative relevance value that indicates the strength of the coupling between the words.
  • the words therefore have a particularly close relationship to one another.
  • association relations and synapse connections takes place within a subsection of the plaintext, in particular within a sentence, a text line or a tabular element.
  • an association relation is formed between each word of a text section or sentence and all other words of the text unit. This happens through the formation of synapses between the neurons associated with the words.
  • the assignment of individual neurons in the at least one further level to at least one word family is carried out with the same word stem, wherein between the Neurons and the neurons of all belonging to the respective word family words synapse connections.
  • the neural network there are thus neurons which are each assigned to a word family. This part of the network is called a "lemma layer.” Synapse connections exist between a neuron of this layer and the neurons of all the words belonging to the word family.
  • the assignment of individual neurons in one of the further levels preferably takes place to at least one synonym group, whereby synaptic connections are established between the neurons and the neurons of all the words belonging to the respective synonym group.
  • the neural network there are thus neurons which are each assigned to a group of synonyms. This part or level of the network is called a "synonym layer.”
  • synapse connections between a neuron of this layer and the neurons of the words of the synonym group.
  • the assignment of individual neurons in the at least one further level to at least one multiword concept and / or one word composite is preferably carried out, wherein synaptic connections are made between the neurons and the neurons of all words belonging to the respective multiword concept and / or compound and the storage of the context information of Synapses in the order of the respective words.
  • the neural network there are thus neurons which are each assigned to a multi-word term or a composite.
  • This part or level of the net is called a "lexem layer.”
  • the synapse is advantageously connected to the corresponding lemma neuron
  • the synapses of the lexeme neurons are stored in such a way that the information about the order of the terms contained is present.
  • assigning individual neurons in one of the further levels to at least one group of free word associations, wherein between the neurons of the respective words additional synapse connections between at least one associative euron and the at least one word neuron, which consists of all neurons a respective word family and / or from all neurons of a respective multi-word concept and / or compound belonging words can be produced.
  • the neural network there are thus neurons each associated with a group of word associations.
  • This part or level of the neural network is called the "associative layer”.
  • every single word association is realized via a synapse between the associative neuron and a word neuron.
  • the synapse is connected to the corresponding lemma neuron. If there is a matching lexeme neuron, the synapse is linked to the lexeme neuron.
  • Generating association relations from a plain text inventory preferably comprises the following automated steps:
  • the free word associations are generated according to a neural learning rule using a positive or negative weighting, whereby the assignment of the synaptic connections can be changed in dependence on time based on the relevance values.
  • Each association relationship thus has a quantitative relevance value that defines the strength of the coupling.
  • Association relations with a high relevance value have a particularly close relationship between the words.
  • the Hebbian learning rule is advantageously used for the procedure for building or amplifying the synapse connection.
  • the relevance value of the association relation is increased if a word pair relationship is repeatedly determined for an existing synapse at different plaintext positions.
  • the relevance value of the association relation is reduced if, for an existing synapse at a plaintext position, its source word but not the target word of the association concerned is found and / or an association relation is deleted if the relevance value falls below a predeterminable threshold value.
  • the part of speech of the source and target words of the association is preferably taken into account and / or weighted.
  • nouns and verbs increase the relevance value, while adjectives with a reduced factor are taken into account.
  • the entire processing and evaluation of text stocks is most efficient with neural mechanisms.
  • the context information is stored in a neural network.
  • a neural network is used whose structure has been optimized for text processing.
  • a general text file is entered or "trained" into the neural network, which can be advantageously extensive, for example, 100 million lines of text
  • texts are drawn in from special language areas, thereby further increasing the linguistic competence of the network.
  • the texts are broken down into sentences and words, and abbreviations are expanded.
  • the system has the option of "forgetting" an initially overestimated assignment A - B partially or completely, since the word A is later found predominantly without the word B. If the weakening reduces the relevance value below a specified threshold value This eliminates the need to increase the number of association relationships stored, thus making the executing computer system less demanding.
  • the relation A - B generally has a different relevance value than the relation B - A. If A - B is significantly larger than B 4 A or if B 4 A is removed again, this has the meaning: "If I think of A I remember B But when I think of B, I can not think of A. "
  • a modified Hebb algorithm is advantageously used. It is characterized by the fact that the action potential of the participating neurons only gradually decreases. This achieves a stronger similarity to the learning processes in biological brains.
  • the synaptic connections are initially kept in a temporary memory area ("short-term memory”), in which case they can be completely or partially forgotten by the attenuation mechanisms described above After a certain time, the connections are transferred into a permanent memory (“long-term memory”) , The information is then learned permanently. The relevance values of the neurons can be amplified later at most, but not attenuated again.
  • Fig. 1 representation of synapse connections between a neuron
  • FIG. 2 representation of synapse connections between a neuron
  • FIG. 3 representation of synapse connections between a neuron
  • FIG. 7 different relevance values of two association relations
  • a lemma neuron 5 represents the group of all words into a word stem.
  • Fig. 2 shows how between a neuron 7 of the synonym layer 6 and the neurons of all words with the same meaning, which are part of the word layer 3, consist of synapse connections shown as arrows.
  • FIG. 3 there is a neuron 9 in the lexeme layer 8 for each multi-word concept or composite. This also applies to multi-word terms which are written separately. For example, "Federal Republic of Germany.” Synapse connections exist between a neuron 9 of the lexeme layer 8 and the components of a compound term, with the synapses being assigned an order.
  • Free word associations are illustrated in FIG. 4, in which an associative neuron 11 exists in an associative layer 10 for each word known to have associations with other words. Every single word association is realized via a synapse between the associative neuron and a word neuron.
  • association relations between these two words are created.
  • the connection between “Federal Chancellor” and “Adenauer” and “Adenauer” with “Chancellor” initially has a medium relevance value that is the same for both directions, cf.
  • each word of this sentence is connected to every other word by a provisional association relation, for example.
  • synapse connections are generated between the relevant word neurons.

Abstract

The present invention relates to a method for the automated production and/or recognition of context information in plain-text portfolios by means of a computer using a neural network, wherein the neural network is structured on a plurality of levels, comprising the following steps: plain-text portfolios with an arbitrary multiplicity of words are supplied; particularly on a scale of more than 10 million lines of text and preferably 100 million lines of text, individual neurons (2) are associated with words on at least one first level (3), wherein individual neurons are associated with a specific word for training and updating purposes using association relations between words from the plain-text portfolio and wherein every new word has an additional word neuron (2) created for it; individual neurons (5, 7, 9, 11) are associated with at least one group of words by means of synapses on at least one further level (4, 6, 8, 10), wherein different words in a respective textural context can be updated by means of new and/or existing association relations which have been produced between said words, and wherein additional synapses are produced in the neural network, wherein, for the purpose of representing the association relations when training with plain text, the synapses have a respective updatable relevance value associated with them which defines the strength of the association relation; association relations are formed between each word from a unit of a plain-text portfolio and all further words from this text unit by setting up synapsis links between the neurons which are associated with the respective words from the first and/or further level(s), wherein the association relations which have been freshly produced and/or which have had their relevance value updated are stored in a temporary memory; and the association relations and synapsis links to the neurons on the levels and between the levels are stored in a permanent memory after a predetermined time to form structured knowledge in a database in which a search query using the association relations and synapsis links can be used to perform a search for any words and the corresponding context.

Description

BESCHREIBUNG  DESCRIPTION
Automatische Extraktion von Informationen über semantische Zusammenhänge aus einem Dokumentenpool mit einem neuronalen System Automatic extraction of information about semantic relationships from a pool of documents with a neural system
Die vorliegende Erfindung bezieht sich auf ein Verfahren zur automatisierten Erzeugung und/oder Erkennung von Kontext-Informationen in Klartextbeständen mittels eines Computers unter Verwendung eines neuronalen Netzes, wobei das neuronale Netz in mehreren Ebenen, sogenannten Layers, strukturiert ist. The present invention relates to a method for the automated generation and / or recognition of context information in plain text files by means of a computer using a neural network, wherein the neural network is structured in several levels, so-called layers.
Es sind aus dem Stand der Technik zahlreiche Verfahren zur automatisierten Klassifikation von Texten bekannt. Die bestehenden Vorgehensweisen beziehen sich jeweils auf einzelne Wörter, wobei jedes Wort mit seiner textuellen Umgebung in Bezug gesetzt wird. Hierdurch werden Grundformen einer Kontextanalyse erreicht. Numerous methods for the automated classification of texts are known from the prior art. The existing procedures each relate to individual words, each word being related to its textual environment. This achieves basic forms of a context analysis.
Die gebräuchlichen Verfahren haben jedoch den Nachteil, dass die semantischen Bezüge zwischen verschiedenen Wörtern im Allgemeinen unbekannt sind. Zwar gibt es tabellarisches Wissen über verwandte Wortformen und Synonyme. Wegen der großen Anzahl der möglicher Paarbeziehungen zwischen Wörtern bleibt dieses Wissen jedoch unvollständig, da es bisher nicht durch ein automatisches, massentaugliches Verfahren generiert werden konnte. However, the common methods have the disadvantage that the semantic relations between different words are generally unknown. Although there is tabular knowledge about related word forms and synonyms. However, because of the large number of possible pair relationships between words, this knowledge remains incomplete, as it could not previously be generated by an automated mass-based method.
Ein besonderes Problem entsteht aus spezialisierten Sprachräumen. Einerseits sind diese kulturkreisbedingt oder auch zeitlich bzw. räumlich, beispielsweise in Mundarten. Von großer Bedeutung sind insbesondere die fachspezifischen Sprachen der unterschiedlichen Spezialisten. Da bisher die Möglichkeit fehlt, die Systeme zur automatischen Kontextanalyse in einfacher Weise an spezielle Sprachräume zu adaptieren, bleibt deren Funktion stark eingeschränkt. A particular problem arises from specialized language areas. On the one hand, these are cultural-cultural or temporal or spatial, for example in dialects. Of particular importance are the subject-specific languages of the different specialists. Since so far lacks the ability to adapt the systems for automatic context analysis in a simple way to specific linguistic spaces, their function remains severely limited.
Die Aufgabe der Erfindung besteht daher darin, ein Verfahren bereitzustellen, mit dem auf einfache und vorteilhafte Weise unter Nutzung eines neuronalen Netzes automatisch ein Pool mit formalisiertem Basiswissen über Bedeutungsrelationen zwischen verschiedenen Wörtern, d.h. ein sogenanntes„Assoziations-Wissen", generiert wird. The object of the invention is therefore to provide a method with which, in a simple and advantageous manner, using a neural network, a pool with formalized basic knowledge about meaning relations between different words, i. a so-called "association knowledge" is generated.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen gemäß Anspruch 1 gelöst. This object is achieved by a method having the features according to claim 1.
Das erfindungsgemäße Verfahren zur automatisierten Erzeugung und/oder Erkennung von Kontext-Informationen in Klartextbeständen mittels eines Computers unter Verwendung eines neuronalen Netzes, wobei das neuronale Netz in mehreren Ebenen strukturiert ist, umfasst die folgenden Schritte: The inventive method for the automated generation and / or recognition of context information in plain text files by means of a computer using a neural network, wherein the neural network is structured in several levels, comprises the following steps:
- Zuführen von Klartextbeständen mit einer beliebigen Vielzahl von Wörtern; insbesondere in einem Umfang von mehr als 10 Millionen Textzeilen und bevorzugt 100 Millionen Textzeilen, - supplying plain text files with any number of words; in particular to a volume of more than 10 million lines of text and preferably 100 million lines of text,
- Zuordnen einzelner Neuronen zu Wörtern in mindestens einer ersten Ebene, wobei das Zuordnen einzelner Neuronen zu einem speziellen Wort eintrainierend und aktualisierend mittels Assoziationsrelationen zwischen Wörtern des Klartextbestandes erfolgt und wobei für jedes neue Wort ein zusätzliches Wort-Neuron angelegt wird;  Assigning individual neurons to words in at least a first level, wherein the assignment of individual neurons to a specific word is done by training and updating using association relations between words of the plain text population and wherein an additional word neuron is created for each new word;
- Zuordnen einzelner Neuronen zu mindestens einer Gruppe von Wörtern mittels Synapsen in mindestens einer weiteren Ebene, wobei  - Assigning individual neurons to at least one group of words by means of synapses in at least one other level, wherein
unterschiedliche Wörter in einem jeweiligen textuellen Kontext mittels neuer und/oder bestehender Assoziationsrelationen, welche zwischen diesen Wörtern erzeugt wurden, aktualisierbar sind, und wobei zusätzliche Synapsen in dem neuronalen Netz erzeugt werden, wobei den Synapsen zur Darstellung der Assoziationsrelationen beim Eintrainieren von Klartext jeweils ein aktualisierbarer Relevanzwert zugeordnet wird, der die Stärke der Assoziationsrelation definiert; different words in a respective textual context can be updated by means of new and / or existing association relations generated between these words, and additional synapses are generated in the neural network, wherein the synapses for representing the association relations during training of plaintext are respectively updateable Relevance value is assigned, which defines the strength of the association relation;
- Bilden von Assoziationsrelationen zwischen jedem Wort einer Einheit eines Klartextbestandes und allen weiteren Wörtern dieser Texteinheit mittels Herstellung von Synapsenverbindungen zwischen den Neuronen, welche den jeweiligen Wörtern aus der ersten und/oder weiteren Ebene zugeordnet sind, wobei  - Forming association relations between each word of a unit of a plain text stock and all other words of this text unit by establishing synapse connections between the neurons which are assigned to the respective words from the first and / or further level, where
die neu erzeugten und/oder in ihrem Relevanzwert aktualisierten Assoziationsrelationen in einem temporären Speicher gespeichert werden; und the newly created and / or association information updated in its relevance value are stored in a temporary memory; and
- Abspeichern der Assoziationsrelationen und Synapsenverbindungen zu den Neuronen in den Ebenen und zwischen den Ebenen in einem permanenten Speicher nach einer vorbestimmbaren Zeit unter Bildung eines strukturierten Wissens in einer Datenbank, in welcher über eine Suchanfrage mittels der Assoziationsrelationen und Synapsenverbindungen eine Recherche nach beliebigen Wörtern und entsprechendem Kontext durchführbar ist.  Storing the association relations and synapse connections to the neurons in the levels and between the levels in a permanent memory after a predeterminable time to form a structured knowledge in a database, in which a search for arbitrary words and corresponding search results by means of the association relations and synapse connections Context is feasible.
Damit kann vorteilsweise automatisch nach Kontexten gesucht werden, die mit sinnverwandten Wörtern beschrieben sind. Weiterhin wird die Suche nach unbekannten Fachbegriffen ermöglicht. Es ist ferner möglich, Taxonomien, d.h. Klassifikationsschemata, automatisch zu generieren. Dabei soll bestehendes oder generiertes formalisiertes Assoziations-Wissen mit Hilfe von speziellen Text-Korpora erweitert werden, so dass Texte aus speziellen Sprachräumen optimal behandelt werden können und somit eine Wissens-Grundlage geschaffen werden kann. Zudem sollen Text- Dokumente automatisch in unterschiedliche thematische Kategorien einsortiert werden können. Auch ist es möglich, aufgrund von Klartext-Quellen Statistiken zu erzeugen und Klartext- Eingaben in ein Datenbank-Raster zu bringen. Für automatisierte Übersetzungssysteme kann die passende Übersetzung für ein mehrdeutiges Wort gefunden werden. Vorrichtungsseitig können die Verfahrensschritte auf einem System ausgeführt werden, an dessen Speicher und Verarbeitungsleistung nur geringe Anforderungen gestellt werden müssen. This can advantageously be searched automatically for contexts that are described with synonymous related words. Furthermore, the search for unknown terms is possible. It is also possible to automatically generate taxonomies, ie classification schemes. Existing or generated formalized association knowledge should be extended with the help of special text corpora, so that texts from special language areas can be optimally treated and thus a knowledge base can be created. In addition, text documents should automatically be sorted into different thematic categories. It is also possible to generate statistics based on plain text sources and to place plain text entries in a database grid. For automated translation systems, the appropriate translation may be for an ambiguous word being found. On the device side, the method steps can be carried out on a system whose memory and processing power only low demands must be made.
Insbesondere werden in Klartext-Beständen die Kontext-Informationen automatisch erkannt. Dies geschieht unter Verwendung des neuronalen Netzes, wobei die Zuordnung zu dem jeweiligen Kontext über Assoziations-Relationen zwischen unterschiedlichen Wörtern realisiert ist. Eine solche Wort-Paarbeziehung hat jeweils sinngemäß die Bedeutung:„Zu Wort A fällt mir auch Wort B ein". Die Assoziations-Relationen werden durch die Repräsentation von Synapsen in dem neuronalen Netz erreicht. In dem neuronalen Netz gibt es Neuronen in einer ersten Ebene, die je einem speziellen Wort zugeordnet sind. Diese Ebene des Netzes wird als„Wort-Layer" bezeichnet. Immer wenn bei einem Trainingsvorgang ein bislang unbekanntes Wort vorgefunden wird, wird vorteilhaft automatisch ein weiteres Neuron im Wort-Layer angelegt, das diesem neuen Wort dauerhaft zugeordnet wird. In particular, the context information is automatically recognized in plain text inventories. This is done using the neural network, where the assignment to the respective context is realized via association relations between different words. Each such word-pair relationship has the meaning: "Word A also comes to mind in word A." The association relations are achieved through the representation of synapses in the neural network, and in the neural network there are neurons in a first level each associated with a particular word. This level of the network is referred to as a "word layer". Whenever a previously unknown word is found during a training process, advantageously another neuron is automatically created in the word layer, which is permanently assigned to this new word.
Die Assoziationsbeziehungen werden vorteilhaft automatisch aus den eintrainierten Texten erzeugt. Hierbei wird ermittelt, welche Wörter gemeinsam in einem Satz vorkommen. Wenn in einem Satz die Wörter A und B vorkommen, wird eine Beziehung A - B und eine Beziehung B - A aufgebaut bzw. verstärkt. The association relationships are advantageously generated automatically from the trained texts. This determines which words occur together in a sentence. If the words A and B occur in a sentence, a relationship A - B and a relationship B - A are built up or amplified.
Jede Assoziationsbeziehung hat einen zudem quantitativen Relevanzwert, der die Stärke der Kopplung zwischen den Wörtern angibt. Bei Assoziationsbeziehungen mit vergleichsweise großem Relevanzwert haben die Wörter demnach einen besonders engen Bezug zueinander. Each association relationship also has a quantitative relevance value that indicates the strength of the coupling between the words. For association relationships with a comparatively high relevance value, the words therefore have a particularly close relationship to one another.
Vorteilhafte Ausführungen der Erfindung sind Gegenstand der Unteransprüche. Advantageous embodiments of the invention are the subject of the dependent claims.
Bevorzugt erfolgt die Zuordnung einzelner Neuronen und die Bildung von Assoziationsrelationen sowie Synapsenverbindungen innerhalb eines Teilabschnittes des Klartextes, insbesondere innerhalb eines Satzes, einer Textzeile oder eines tabellarischen Elements. Damit wird beispielsweise zwischen jedem Wort einer Textabschnittes oder Satzes und allen anderen Wörtern der Texteinheit eine Assoziationsrelation gebildet. Dies geschieht über die Bildung von Synapsen zwischen den Neuronen, die den Wörtern zugeordnet sind. Preferably, the assignment of individual neurons and the formation of association relations and synapse connections takes place within a subsection of the plaintext, in particular within a sentence, a text line or a tabular element. Thus, for example, an association relation is formed between each word of a text section or sentence and all other words of the text unit. This happens through the formation of synapses between the neurons associated with the words.
Vorzugsweise erfolgt das Zuordnen einzelner Neuronen in der mindestens einen weiteren Ebene zu wenigstens einer Wortfamilie mit gleichem Wortstamm, wobei zwischen den Neuronen und den Neuronen aller zu der jeweiligen Wortfamilie gehörenden Wörter Synapsenverbindungen hergestellt werden. In dem neuronalen Netz gibt es somit Neuronen, die je einer Wortfamilie zugeordnet sind. Dieser Teil des Netzes wird als „Lemma-Layer" bezeichnet. Zwischen einem Neuron dieses Layers und den Neuronen aller zu der Wortfamilie gehörenden Wörter bestehen Synapsenverbindungen. Preferably, the assignment of individual neurons in the at least one further level to at least one word family is carried out with the same word stem, wherein between the Neurons and the neurons of all belonging to the respective word family words synapse connections. In the neural network there are thus neurons which are each assigned to a word family. This part of the network is called a "lemma layer." Synapse connections exist between a neuron of this layer and the neurons of all the words belonging to the word family.
Vorzugsweise erfolgt das Zuordnen einzelner Neuronen in einer der weiteren Ebenen zu wenigstens einer Synonymgruppe, wobei zwischen den Neuronen und den Neuronen aller zu der jeweiligen Synonymgruppe gehörenden Wörter Synapsenverbindungen hergestellt werden. In dem neuronalen Netz gibt es somit Neuronen, die je einer Gruppe von Synonymen zugeordnet sind. Dieser Teil bzw. Ebene des Netzes wird als„Synonym- Layer" bezeichnet. Zwischen einem Neuron dieses Layers und den Neuronen der Wörter der Synonymgruppe bestehen Synapsenverbindungen. The assignment of individual neurons in one of the further levels preferably takes place to at least one synonym group, whereby synaptic connections are established between the neurons and the neurons of all the words belonging to the respective synonym group. In the neural network there are thus neurons which are each assigned to a group of synonyms. This part or level of the network is called a "synonym layer." There are synapse connections between a neuron of this layer and the neurons of the words of the synonym group.
Bevorzugt erfolgt das Zuordnen einzelner Neuronen in der mindestens einen weiteren Ebene zu wenigstens je einem Mehrwortbegriff und/oder je einem Wortkompositum, wobei zwischen den Neuronen und den Neuronen aller zum jeweiligen Mehrwortbegriff und/oder Kompositum gehörenden Wörter Synapsenverbindungen hergestellt werden und das Speichern der Kontextinformation der Synapsen in der Reihenfolge der jeweiligen Wörter erfolgt. In dem neuronalen Netz gibt es somit Neuronen, die jeweils einem Mehrwortbegriff oder einem Kompositum zugeordnet sind. Dieser Teil bzw. Ebene des Netzes wird als„Lexem-Layer" bezeichnet Zwischen einem Neuron dieses Layers und den Neuronen der Wörter, die die Bestandteile des Lexems bilden, bestehen Synapsenverbindungen. Bei Wortbestandteilen, für die ein Neuron im Lemma-Layer existiert, ist die Synapse zusätzlich vorteilhaft mit dem entsprechenden Lemma-Neuron verbunden. Die Synapsen der Lexem-Neuronen sind in einer Weise gespeichert, dass die Information über die Reihenfolge der enthaltenen Begriffe vorliegt. The assignment of individual neurons in the at least one further level to at least one multiword concept and / or one word composite is preferably carried out, wherein synaptic connections are made between the neurons and the neurons of all words belonging to the respective multiword concept and / or compound and the storage of the context information of Synapses in the order of the respective words. In the neural network there are thus neurons which are each assigned to a multi-word term or a composite. This part or level of the net is called a "lexem layer." There are synapse connections between a neuron of this layer and the neurons of the words that make up the lexeme, and word components for which a neuron exists in the lemma layer In addition, the synapse is advantageously connected to the corresponding lemma neuron The synapses of the lexeme neurons are stored in such a way that the information about the order of the terms contained is present.
Vorzugsweise erfolgt das Zuordnen einzelner Neuronen in einer der weiteren Ebenen zu wenigstens einer Gruppe von freien Wort-Assoziationen, wobei zwischen den zu den Neuronen der jeweiligen Wörter zusätzliche Synapsenverbindungen zwischen wenigstens einem Assoziativ- euron und dem wenigstens einem Wort-Neuron, welches aus allen Neuronen einer jeweiligen Wortfamilie und/oder aus allen Neuronen einer zum jeweiligen Mehrwortbegriff und/oder Kompositum gehörenden Wörter ausgewählt werden kann, hergestellt werden. In dem neuronalen Netz gibt es somit Neuronen, die jeweils einer Gruppe von Wort- Assoziationen zugeordnet sind. Dieser Teil bzw. Ebene des neuronalen Netzes wird als„Assoziativ-Layer" bezeichnet. Vorteilhaft ist jede einzelne Wort-Assoziation über eine Synapse zwischen dem Assoziativ- Neuron und einem Wort-Neuron realisiert. Sofern für das Zielwort ein Neuron im Lemma-Layer existiert, ist die Synapse mit dem entsprechenden Lemma-Neuron verbunden. Wenn es ein passendes Lexem-Neuron gibt, ist die Synapse mit dem Lexem- Neuron verbunden. Preferably, assigning individual neurons in one of the further levels to at least one group of free word associations, wherein between the neurons of the respective words additional synapse connections between at least one associative euron and the at least one word neuron, which consists of all neurons a respective word family and / or from all neurons of a respective multi-word concept and / or compound belonging words can be produced. In the neural network, there are thus neurons each associated with a group of word associations. This part or level of the neural network is called the "associative layer". Advantageously, every single word association is realized via a synapse between the associative neuron and a word neuron. If a neuron exists in the lemma layer for the target word, the synapse is connected to the corresponding lemma neuron. If there is a matching lexeme neuron, the synapse is linked to the lexeme neuron.
Das Erzeugen von Assoziationsrelationen aus einem Klartextbestand umfasst bevorzugt folgende automatisierten Schritte: Generating association relations from a plain text inventory preferably comprises the following automated steps:
- Aufteilen des Klartextbestandes in Texteinheiten und/oder Wörter;  - splitting the plain text content into text units and / or words;
- Bilden von Assoziationsrelationen zwischen jedem Wort einer Texteinheit und allen weiteren Wörtern dieser Texteinheit mittels Herstellung von Synapsenverbindungen zwischen den Neuronen, welche den jeweiligen Wörtern, den jeweiligen Wortfamilien und/oder den jeweiligen Mehrwortbegriffen und/oder Komposita in mehreren Ebenen zugeordnet sind; und  Forming association relations between each word of a text unit and all other words of that text unit by establishing synapse connections between the neurons associated with the respective words, the respective word families and / or the respective multi-word and / or multi-level composites; and
- Generieren freier Wort-Assoziationen mittels Assoziativneuronen einer zusätzlichen Ebene zwischen Wörtern, von denen Assoziationen bekannt sind.  Generate free word associations by means of associative neurons of an additional level between words of which associations are known.
Vorzugsweise erfolgt das Generieren der freien Wort- Assoziationen nach einer neuronalen Lernregel unter Verwendung einer positiven oder negativen Gewichtung erfolgt, wobei die Zuordnung der Synapsenverbindungen basierend auf den Relevanzwerten in zeitlicher Abhängigkeit veränderbar ist. Jede Assoziationsbeziehung weist somit einen quantitativen Relevanzwert auf, der die Stärke der Kopplung definiert. Bei Assoziationsbeziehungen mit hohem Relevanzwert besteht ein besonders enger Bezug der Wörter zueinander. Für die Vorgehensweise beim Aufbauen bzw. Verstärken der Synapsenverbindung wird vorteilhaft die Hebb'sche Lernregel angewendet. Preferably, the free word associations are generated according to a neural learning rule using a positive or negative weighting, whereby the assignment of the synaptic connections can be changed in dependence on time based on the relevance values. Each association relationship thus has a quantitative relevance value that defines the strength of the coupling. Association relations with a high relevance value have a particularly close relationship between the words. For the procedure for building or amplifying the synapse connection, the Hebbian learning rule is advantageously used.
Bevorzugt wird der Relevanzwert der Assoziationsrelation vergrößert, wenn für eine bestehende Synapse an verschiedenen Klartextpositionen wiederholt eine Wortpaar- Beziehung festgestellt wird. Preferably, the relevance value of the association relation is increased if a word pair relationship is repeatedly determined for an existing synapse at different plaintext positions.
Alternativ wird der Relevanzwert der Assoziationsrelation verkleinert , wenn für eine bestehende Synapse an einer Klartextposition deren Quellwort, jedoch nicht das Zielwort der betreffenden Assoziation vorgefunden wird und/oder dass eine Assoziationsrelation gelöscht wird, wenn der Relevanzwert unter einen vorbestimmbaren Schwellenwert absinkt. Alternatively, the relevance value of the association relation is reduced if, for an existing synapse at a plaintext position, its source word but not the target word of the association concerned is found and / or an association relation is deleted if the relevance value falls below a predeterminable threshold value.
Vorzugsweise wird für die Berechnung der Relevanzwerte der Assoziations-Relationen die Wortart der Quell- und Zielwörter der Assoziation berücksichtigt und/oder gewichtet. Vorteilhaft führen Nomina und Verben zur Steigerung des Relevanzwertes, während Adjektive mit einem reduzierten Faktor berücksichtigt werden. For the calculation of the relevance values of the association relations, the part of speech of the source and target words of the association is preferably taken into account and / or weighted. Advantageously, nouns and verbs increase the relevance value, while adjectives with a reduced factor are taken into account.
Die gesamte Verarbeitung und Auswertung von Textbeständen erfolgt am effizientesten mit neuronalen Mechanismen. Um dies vorzubereiten, werden die Kontext-Informationen in einem neuronalen Netz gespeichert. The entire processing and evaluation of text stocks is most efficient with neural mechanisms. To prepare for this, the context information is stored in a neural network.
Hierzu findet ein neuronale Netz Verwendung, dessen Struktur für die Textbearbeitung optimiert wurde. For this purpose, a neural network is used whose structure has been optimized for text processing.
Die genannten Strukturen sind eine Implementierung einer semantisch- syntaktischen Wissensbasis, die besonders vorteilhaft für die im Weiteren beschriebenen Vorgänge Verwendung findet. The structures mentioned are an implementation of a semantic-syntactic knowledge base, which is used particularly advantageously for the processes described below.
Ein allgemeiner Textbestand wird beispielsweise in das Neuronale Netz eingegeben bzw. „eintrainiert". Dieser Textbestand kann vorteilhaft umfangreich sein, beispielsweise 100 Millionen Textzeilen. Für besondere Anwendungen werden Texte eintrainiert, die aus speziellen Sprachräumen stammen. Hierdurch wird die Sprachkompetenz des Netzes weiter vergrößert. Beim Eintrainieren werden die Texte in ihre Sätze und Wörter zerlegt. Abkürzungen werden expandiert. For example, a general text file is entered or "trained" into the neural network, which can be advantageously extensive, for example, 100 million lines of text For special applications, texts are drawn in from special language areas, thereby further increasing the linguistic competence of the network. During training, the texts are broken down into sentences and words, and abbreviations are expanded.
Wenn in einem Satz das Wort A vorkommt, nicht jedoch B, dann wird der Relevanzwert der Beziehung A - B verkleinert, während B - A nicht beeinflusst wird. Hierdurch hat das System die Möglichkeit, eine anfänglich überbewertete Zuordnung A - B partiell oder ganz wieder zu„vergessen", da das Wort A später doch überwiegend ohne das Wort B vorgefunden wird. Wenn durch die Abschwächung der Relevanzwert unter einen festgelegten Schwellwert absinkt, wird die Assoziationsbeziehung entfernt. Hierdurch wird verhindert, dass die Anzahl der gespeicherten Assoziationsbeziehungen zu weit ansteigt. An das ausführende Computersystem müssen demnach keine zu großen Anforderungen gestellt werden. If the word A appears in a sentence, but not B, then the relevance value of the relationship A - B is reduced while B - A is not affected. As a result, the system has the option of "forgetting" an initially overestimated assignment A - B partially or completely, since the word A is later found predominantly without the word B. If the weakening reduces the relevance value below a specified threshold value This eliminates the need to increase the number of association relationships stored, thus making the executing computer system less demanding.
Somit sind die Assoziationsbeziehungen gerichtet. Die Relation A - B hat im Allgemeinen einen anderen Relevanzwert als die Relation B - A. Wenn A - B deutlich größer ist als B 4 A oder wenn B 4 A wieder entfernt wurde, hat dies sinngemäß die Bedeutung:„Wenn ich an A denke, fällt mir B ein. Aber wenn ich an B denke, fällt mir A nicht ein." Thus, the association relations are addressed. The relation A - B generally has a different relevance value than the relation B - A. If A - B is significantly larger than B 4 A or if B 4 A is removed again, this has the meaning: "If I think of A I remember B But when I think of B, I can not think of A. "
Hierzu wird vorteilhaft wird ein modifizierter Hebb-Algorithmus verwendet. Er zeichnet sich dadurch aus, dass das Aktionspotential der beteiligten Neuronen erst allmählich absinkt. Damit wird eine stärkere Ähnlichkeit zu den Lernprozessen in biologischen Gehirnen erreicht. For this purpose, a modified Hebb algorithm is advantageously used. It is characterized by the fact that the action potential of the participating neurons only gradually decreases. This achieves a stronger similarity to the learning processes in biological brains.
Die oben beschriebenen Schritte bzw. Aktionen werden also in abgeschwächter Form auch bei den darauf folgenden Sätzen durchgeführt, solange, bis die Aktionspotentiale unter einen vorgegebenen Schwellwert abgesunken sind. Nach dem Verstärken einer Relation bei dem gemeinsamen Vorkommen zweier Wörter in einem Satz führt also das Nicht- Vorkommen dieser Wörter in den folgenden Sätzen zu einer Abschwächung. Die nachträgliche Abschwächung ist so dimensioniert, dass sie deutlich geringer ist als die ursprüngliche Verstärkung. The above-described steps or actions are thus carried out in a weaker form also in the subsequent sentences, until the action potentials have fallen below a predetermined threshold value. After reinforcing a relation in the coexistence of two words in a sentence, therefore, the non-occurrence of these words in the following sentences leads to an attenuation. The subsequent weakening is dimensioned so that it is significantly lower than the original reinforcement.
Die Synapsenverbindungen werden zunächst in einem temporären Speicherbereich gehalten („Kurzzeitgedächtnis"). In dieser Phase können sie durch die oben beschriebenen Abschwächungsmechanismen ganz oder teilweise wieder in Vergessenheit geraten. Nach einer bestimmten Zeit werden die Verbindungen in einen permanenten Speicher übertragen („Langzeitgedächtnis"). Die Information ist dann dauerhaft gelernt. Die Relevanzwerte der Neuronen können später höchstens noch weiter verstärkt werden, nicht jedoch wieder abgeschwächt. The synaptic connections are initially kept in a temporary memory area ("short-term memory"), in which case they can be completely or partially forgotten by the attenuation mechanisms described above After a certain time, the connections are transferred into a permanent memory ("long-term memory") , The information is then learned permanently. The relevance values of the neurons can be amplified later at most, but not attenuated again.
Wenn in einem Satz ein Negationswort, beispielsweise„nicht",„kein" vorkommt, werden die für diesen Satz einzutrainierenden Wort-Paarbeziehungen in ihrer Wirkung invertiert. Sie führen also zu einer Abschwächung der betreffenden Wort- Assoziationen. Wenn hierdurch der Relevanzwert ein negatives Vorzeichen erhält, wird die Verbindung als inhibitorisch wirkende Synapse interpretiert. If in a sentence a negation word, for example "not", "none" occurs, the word-pair relationships to be trained for this sentence are inverted in their effect. They thus lead to a weakening of the relevant word associations. If this gives the relevance value a negative sign, the compound is interpreted as an inhibitory synapse.
Es wurde bereits erwähnt, dass für diejenigen Wörter Paarbeziehungen eingerichtet werden, die gemeinsam in einem Satz vorkommen. Ein Satz wird normalerweise durch ein entsprechendes Satzzeichen wie„.",„!",„?" beendet. Wenn Texte eintrainiert werden sollen, die keine derartige Satzstruktur haben, beispielsweise tabellarische Information, kann die Einheit, innerhalb derer die Paarbeziehungen erstellt werden, auch eine Zeile, ein Absatz oder der gesamte Datensatz sein. It has already been mentioned that for those words pair relationships are established, which occur together in one sentence. A sentence is usually terminated by an appropriate punctuation mark such as ".", "!", "?" If texts are to be trained that do not have such a sentence structure, such as tabular information, the unit within which the pair relationships are created may also be a line, a paragraph, or the entire record.
Verschiedene Wortarten gehen mit unterschiedlichem Gewicht in die Assoziations- generierung ein. Beispielsweise werden Nomina und Verben bei der Relevanzwertberechnung mit voller Stärke berücksichtigt, während Adjektive nur mit geringerem Gewicht verwendet werden. Different parts of speech enter the association generation with different weights. For example, nouns and verbs are included in the relevance value calculation at full strength, while adjectives are used at lesser weight.
Die Erfindung wird nun anhand der Figuren in Verbindung mit einfachen Wörtern und Sätzen näher erläutert. Hierbei zeigen: The invention will now be described with reference to the figures in conjunction with simple words and Sets explained in more detail. Hereby show:
Fig. 1 Darstellung von Synapsenverbindungen zwischen einem Neuron des Fig. 1 representation of synapse connections between a neuron of
Lemma-Layers und den Neuronen aller zu einer Wortfamilie gehörenden Wörter;  Lemma layers and the neurons of all words belonging to a word family;
Fig. 2 Darstellung von Synapsenverbindungen zwischen einem Neuron des Fig. 2 representation of synapse connections between a neuron of
Synonym- Layers und den Neuronen aller Wörter mit derselben Bedeutung;  Synonym layers and neurons of all words with the same meaning;
Fig. 3 Darstellung von Synapsenverbindungen zwischen einem Neuron des Fig. 3 representation of synapse connections between a neuron of
Lexem-Layers und den Neuronen der Komponenten eines Mehrwortbegriffes mit zugeordneter Reihenfolge;  Lexeme layers and the neurons of the components of a multi-word notation with assigned order;
Fig. 4 Darstellung von Synapsenverbindungen zwischen einem Neuron des 4 shows the representation of synapse connections between a neuron of the
Assoziativ- Layers und den Neuronen aller assoziierten Wörter;  Associative layers and the neurons of all associated words;
Fig. 5 Darstellung von Synapsenverbindungen zwischen Wort-Neuronen zur Fig. 5 representation of synapse connections between word neurons to
Bildung einer Assoziationsrelation;  Formation of an association relation;
Fig. 6 Verstärkung der Relevanzwerte von Assoziationsrelationen; Fig. 6 enhancement of the relevance values of association relations;
Fig. 7 unterschiedlich starke Relevanzwerte zweier Assoziationsrelationen; und FIG. 7 different relevance values of two association relations; FIG. and
Fig. 8 hemmende Synapsenverbindungen zwischen zwei Wörtern. Fig. 8 inhibiting synapse connections between two words.
Fig. 1 zeigt schematisch als Pfeile dargestellte Synapsenverbindungen zwischen einem Neuron 5 des Lemma-Layers 4 und den Neuronen aller zu einer Wortfamilie gehörenden Wörter, welche Bestandteil des Wort-Layers 3 mit darin enthaltenen Neuronen 2 des Wortlayers sind. Für die Repräsentation von Wortfamilien ist dabei der sogenannte Lemma-Layer 4 vorgesehen. Ein Lemma-Neuron 5 repräsentiert die Gruppe aller Wörter zu einem Wortstamm. 1 shows diagrammatically as synapse connections shown as arrows between a neuron 5 of the lemma layer 4 and the neurons of all words belonging to a word family which are part of the word layer 3 with neurons 2 of the word layer contained therein. For the representation of word families, the so-called lemma layer 4 is provided. A lemma neuron 5 represents the group of all words into a word stem.
Fig. 2 zeigt, wie zwischen einem Neuron 7 des Synonym-Layers 6 und den Neuronen aller Wörter mit derselben Bedeutung, welche Bestandteil des Wort-Layers 3 sind, als Pfeile dargestellte Synapsenverbindungen bestehen. Fig. 2 shows how between a neuron 7 of the synonym layer 6 and the neurons of all words with the same meaning, which are part of the word layer 3, consist of synapse connections shown as arrows.
Für jeden Mehrwortbegriff bzw. Kompositum gibt es gemäß Fig. 3 ein Neuron 9 im Lexem-Layer 8. Dies gilt auch für Mehrwortbegriffe, die getrennt geschrieben werden, z.B.„Bundesrepublik Deutschland". Zwischen einem Neuron 9 des Lexem-Layers 8 und den Komponenten eines zusammengesetzten Begriffes bestehen Synapsenverbindungen. Den Synapsen ist dabei eine Reihenfolge zugeordnet. According to FIG. 3, there is a neuron 9 in the lexeme layer 8 for each multi-word concept or composite. This also applies to multi-word terms which are written separately. For example, "Federal Republic of Germany." Synapse connections exist between a neuron 9 of the lexeme layer 8 and the components of a compound term, with the synapses being assigned an order.
Freie Wort-Assoziationen sind in Fig. 4 dargestellt, wonach zu jedem Wort, von dem aus Assoziationen zu anderen Wörtern bekannt sind, ein Assoziativ-Neuron 11 in einem Assoziativ- Layer 10 existiert. Jede einzelne Wort-Assoziation ist über eine Synapse zwischen dem Assoziativ-Neuron und einem Wort-Neuron realisiert. Free word associations are illustrated in FIG. 4, in which an associative neuron 11 exists in an associative layer 10 for each word known to have associations with other words. Every single word association is realized via a synapse between the associative neuron and a word neuron.
An einem Beispiel-Text soll nun in Verbindung mit Fig. 5, Fig. 6 und Fig. 7 die Erzeugung der Assoziationsrelationen zwischen den Wörtern „Bundeskanzler" und „Adenauer" demonstriert werden. The creation of the association relations between the words "Federal Chancellor" and "Adenauer" will now be demonstrated on an example text in conjunction with FIGS. 5, 6 and 7.
Für das Assoziativ-Training werden die im Folgenden umrahmt dargestellten Sätze verwendet:  For associative training, the following sentences are used:
Adenauer hat als Bundeskanzler einen bleibenden Einfluss hinterlassen. Adenauer has left a lasting influence as chancellor.
Der Einfluss auf die Wort-Paarbeziehungen ist in Fig. 5 bis Fig. 7 exemplarisch für die Wörter„Adenauer" und„Bundeskanzler" dargestellt. The influence on the word-pair relationships is illustrated in FIGS. 5 to 7 by way of example for the words "Adenauer" and "Chancellor".
Wenn die Wörter„Bundeskanzler" und„Adenauer" erstmalig in demselben Satz vorgefunden werden, werden Assoziationsbeziehungen zwischen diesen beiden Wörtern angelegt. Dabei bekommen die Verbindung von„Bundeskanzler" zu„Adenauer" und die von„Adenauer" zu „Bundeskanzler" zunächst einen mittelgroßen Relevanzwert, der für beide Richtungen gleich ist, vgl. Fig. 5. Dabei ist jedes Wort dieses Satzes wird mit jedem anderen Wort durch eine beispielsweise provisorische Assoziationsrelation verbunden. Hierzu werden Synapsenverbindungen zwischen den betreffenden Wort-Neuronen erzeugt.  When the words "Federal Chancellor" and "Adenauer" are first found in the same sentence, association relations between these two words are created. The connection between "Federal Chancellor" and "Adenauer" and "Adenauer" with "Chancellor" initially has a medium relevance value that is the same for both directions, cf. In this case, each word of this sentence is connected to every other word by a provisional association relation, for example. For this purpose, synapse connections are generated between the relevant word neurons.
Danach enthält der Text beispielsweise folgenden Satz: After that, the text contains, for example, the following sentence:
So dachte jeder über viele Jahre hinweg sofort an "Adenauer", wenn er das Wort„Bundeskanzler" hörte. So everyone thought for many years immediately to "Adenauer" when he heard the word "Chancellor".
Da die Wörter„Bundeskanzler" und„Adenauer" im nächsten Satz erneut vorkommen, werden die Relevanzwerte der Relationen verstärkt. Sie sind immer noch für beide Richtungen gleich, vgl. Fig. 6. Ein weiterer Satz lautet: Since the words "Federal Chancellor" and "Adenauer" appear again in the next sentence, the relevance values of the relations are strengthened. They are still the same for both directions, cf. Fig. 6. Another sentence is:
Wenn wir aber heute an "Bundeskanzler" denken, fallen uns eher andere But when we think of "Chancellor" today, we tend to think of others
Namen ein.  Name.
In Fig. 7 kommt das Wort„Bundeskanzler" nun ohne„Adenauer" vor. Das bedeutet, dass die Verbindung von „Bundeskanzler zu „Adenauer" abgeschwächt wird. Die Verbindung von„Adenauer" zu„Bundeskanzler" bleibt unverändert. Somit erhalten die beiden Relationen unterschiedliche Relevanzwerte. In Fig. 7 the word "Federal Chancellor" now appears without "Adenauer". This means that the connection between "Chancellor Adenauer" and "Adenauer" is weakened, and the connection between "Adenauer" and "Chancellor" remains unchanged, meaning that the two relations have different relevance values.
Nach dem Assoziativ-Training führt das System also starke Assoziationen von„Adenauer" zu„Bundeskanzler" aus. Die Assoziation von„Bundeskanzler" zu„Adenauer" ist schwächer. Sie könnte nach weiteren Reduktionsschritten ganz entfallen.  After associative training, the system thus carries strong associations from "Adenauer" to "Federal Chancellor". The association of "Federal Chancellor" to "Adenauer" is weaker. It could be omitted after further reduction steps.
Der folgende Satz bezieht sich auf Fig. 8: The following sentence refers to FIG. 8:
Aber trotz seiner Beliebtheit wird Thomas Gottschalk niemals But despite his popularity, Thomas Gottschalk never
Bundeskanzler werden.  Become Chancellor.
Die Wörter „Bundeskanzler" und „Gottschalk" kommen zusammen mit dem Negationswort„niemals" vor. Daher werden zwischen„Bundeskanzler" und„Gottschalk" hemmende Verbindungen angelegt. The words "Chancellor" and "Gottschalk" come together with the negation word "never." Therefore, between "Chancellor" and "Gottschalk" inhibitory connections are created.
„Gottschalk" steht somit in einer hemmenden Verbindung zu „Bundeskanzler". Das bedeutet, wenn in einem Kontext zu„Bundeskanzler" assoziiert werden könnte, wird dies in gewissem Maße reduziert, sofern in diesem Kontext auch die Rede von„Gottschalk" ist. "Gottschalk" thus stands in an inhibitory connection to "Chancellor". This means that if one could associate in a context with "Chancellor", this will be reduced to some extent, if in this context also the talk of "Gottschalk" is.
Sämtliche in den Anmeldeunterlagen offenbarten Merkmale werden als erfindungswesentlich beansprucht. All disclosed in the application documents features are claimed as essential to the invention.

Claims

Patentansprüche claims
1. Verfahren zur automatisierten Erzeugung und/oder Erkennung von Kontext- Informationen in Klartextbeständen mittels eines Computers unter Verwendung eines neuronalen Netzes, wobei das neuronale Netz in mehreren Ebenen strukturiert ist, umfassend die folgenden Schritte: A method for automated generation and / or recognition of context information in plain text files by means of a computer using a neural network, wherein the neural network is structured in multiple levels, comprising the following steps:
Zuführen von Klartextbeständen mit einer beliebigen Vielzahl von Wörtern; insbesondere in einem Umfang von mehr als 10 Millionen Textzeilen und bevorzugt 100 Millionen Textzeilen, Supplying plain text files with any plurality of words; in particular to a volume of more than 10 million lines of text and preferably 100 million lines of text,
- Zuordnen einzelner Neuronen (2) zu Wörtern in mindestens einer ersten Ebene (3), wobei das Zuordnen einzelner Neuronen zu einem speziellen Wort eintrainierend und aktualisierend mittels Assoziationsrelationen zwischen Wörtern des Klartextbestandes erfolgt und wobei für jedes neue Wort ein zusätzliches Wort- Neuron (2) angelegt wird; Assigning individual neurons (2) to words in at least a first level (3), whereby the assignment of individual neurons to a specific word is done by training and updating using association relations between words of the plain text population and wherein for each new word an additional word neuron (2 ) is created;
- Zuordnen einzelner Neuronen (5, 7, 9, 11) zu mindestens einer Gruppe von Wörtern mittels Synapsen in mindestens einer weiteren Ebene (4, 6, 8, 10), wobei unterschiedliche Wörter in einem jeweiligen textuellen Kontext mittels neuer und/oder bestehender Assoziationsrelationen, welche zwischen diesen Wörtern erzeugt wurden, aktualisierbar sind, und wobei zusätzliche Synapsen in dem neuronalen Netz erzeugt werden, wobei den Synapsen zur Darstellung der Assoziationsrelationen beim Eintrainieren von Klartext jeweils ein aktualisierbarer Relevanzwert zugeordnet wird, der die Stärke der Assoziationsrelation definiert; Assigning individual neurons (5, 7, 9, 11) to at least one group of words by means of synapses in at least one further level (4, 6, 8, 10), wherein different words in a respective textual context by means of new and / or existing Association relations generated between these words are updatable, and wherein additional synapses are generated in the neural network, the synapses representing the association relations while training plain text are each assigned an updatable relevance value defining the strength of the association relation;
- Bilden von Assoziationsrelationen zwischen jedem Wort einer Einheit eines Klartextbestandes und allen weiteren Wörtern dieser Texteinheit mittels Herstellung von Synapsenverbindungen zwischen den Neuronen, welche den jeweiligen Wörtern aus der ersten und/oder weiteren Ebene zugeordnet sind, wobei die neu erzeugten und/oder in ihrem Relevanz- wert aktualisierten Assoziationsrelationen in einem temporären Speicher gespeichert werden; und - Abspeichern der Assoziationsrelationen und Synapsenverbindungen zu den Neuronen in den Ebenen und zwischen den Ebenen in einem permanenten Speicher nach einer vorbestimmbaren Zeit unter Bildung eines strukturierten Wissens in einer Datenbank, in welcher über eine Suchanfrage mittels der Assoziationsrelationen und Synapsenverbindungen eine Recherche nach beliebigen Wörtern und entsprechendem Kontext durchführbar ist. - Forming association relations between each word of a unit of plain text and all other words of this text unit by establishing synapse connections between the neurons associated with the respective words from the first and / or further level, the newly generated and / or in their relevance - value updated association relations are stored in a temporary memory; and Storing the association relations and synapse connections to the neurons in the levels and between the levels in a permanent memory after a predeterminable time to form a structured knowledge in a database, in which a search for arbitrary words and corresponding search results by means of the association relations and synapse connections Context is feasible.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Zuordnung einzelner Neuronen (2, 5, 7, 9, 11) und die Bildung von Assoziationsrelationen sowie Synapsenverbindungen innerhalb eines Teilabschnittes des Klartextes erfolgt, insbesondere innerhalb eines Satzes, einer Textzeile oder eines tabellarischen Elements. 2. The method according to claim 1, characterized in that the assignment of individual neurons (2, 5, 7, 9, 11) and the formation of association relations and synapse connections within a subsection of the plaintext occurs, in particular within a sentence, a text line or a tabular element.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass das Zuordnen einzelner Neuronen (5) in der mindestens einen weiteren Ebene (4) zu wenigstens einer Wortfamilie mit gleichem Wortstamm erfolgt, wobei zwischen den Neuronen und den Neuronen aller zu der jeweiligen Wortfamilie gehörenden Wörter Synapsenverbindungen hergestellt werden. 3. The method according to any one of claims 1 or 2, characterized in that the assignment of individual neurons (5) in the at least one further level (4) to at least one word family is carried out with the same root word, wherein between the neurons and the neurons all to the respective word family belonging words synapse connections are made.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Zuordnen einzelner Neuronen (7) in der mindestens einen weiteren Ebene (6) zu wenigstens einer Synonymgruppe erfolgt, wobei zwischen den Neuronen und den Neuronen aller zu der jeweiligen Synonymgruppe gehörenden Wörter Synapsenverbindungen hergestellt werden. 4. The method according to any one of claims 1 to 3, characterized in that the assignment of individual neurons (7) in the at least one further level (6) to at least one synonym group is carried out, wherein between the neurons and the neurons of all belonging to the respective synonym group Words synapse connections are made.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Zuordnen einzelner Neuronen (9) in der mindestens einen weiteren Ebene (8) zu wenigstens je einem Mehrwortbegriff und/oder je einem Wortkompositum erfolgt, wobei zwischen den Neuronen und den Neuronen aller zum jeweiligen Mehrwortbegriff und/oder Kompositum gehörenden Wörter Synapsenverbindungen hergestellt werden und das Speichern der Kontextinformation der Synapsen in der Reihenfolge der jeweiligen Wörter erfolgt. 5. The method according to any one of claims 1 to 4, characterized in that the assignment of individual neurons (9) in the at least one further level (8) to at least one multi-word concept and / or one Wortkompositum takes place, wherein between the neurons and the Neurons of all belonging to the respective multi-word term and / or compound words synapse connections are made and storing the context information of the synapses in the order of the respective words.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das Zuordnen einzelner Neuronen (11) in einer oder mehreren weiteren Ebenen (10) zu wenigstens einer Gruppe von freien Wort-Assoziationen erfolgt, wobei zwischen den zu den Neuronen der jeweiligen Wörter zusätzliche Synapsenverbindungen zwischen wenigstens einem Assoziativ- Neuron und dem wenigstens einem Wort- Neuron, welches aus allen Neuronen einer jeweiligen Wortfamilie und/oder aus allen Neuronen einer zum jeweiligen Mehrwortbegriff und/oder Kompositum gehörenden Wörter ausgewählt werden kann, hergestellt werden. 6. The method according to any one of claims 1 to 5, characterized in that the assignment of individual neurons (11) in one or more further levels (10) to at least one group of free word associations takes place, wherein between the neurons of the respective Words additional synapse connections between at least one associative neuron and the at least one word Neuron, which can be selected from all neurons of a respective word family and / or from all neurons of a respective multi-word term and / or compound belonging words.
7. Verfahren nach Anspruch 1 bis 6, dadurch gekennzeichnet, dass das Erzeugen von Assoziationsrelationen aus einem Klartextbestand folgende, bevorzugt automatisierte Schritte umfasst: 7. The method of claim 1 to 6, characterized in that the generation of association relations from a plain text inventory, preferably automated steps comprises:
- Aufteilen des Klartextbestandes in Texteinheiten und/oder Wörter; - splitting the plain text content into text units and / or words;
- Bilden von Assoziationsrelationen zwischen jedem Wort einer Texteinheit und allen weiteren Wörtern dieser Texteinheit mittels Herstellung von Sy- napsenverbindungen zwischen den Neuronen, welche den jeweiligen Wörtern, den jeweiligen Wortfamilien und/oder den jeweiligen Mehrwortbegriffen und/oder Komposita in mehreren Ebenen (3, 4, 6, 8) zugeordnet sind; und - Forming association relations between each word of a text unit and all other words of this text unit by establishing synapse connections between the neurons which correspond to the respective words, the respective word families and / or the respective multi-word concepts and / or composites in several levels (3, 4 , 6, 8) are assigned; and
- Generieren freier Wort-Assoziationen mittels Assoziativneu ronen einer zusätzlichen Ebene (10) zwischen Wörtern, von denen Assoziationen bekannt sind. Generating free word associations by means of associative newons of an additional level (10) between words of which associations are known.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das Generieren der freien Wort-Assoziationen nach einer neuronalen Lernregel unter Verwendung einer positiven oder negativen Gewichtung erfolgt, wobei die Zuordnung der Synapsen- verbindungen basierend auf den Relevanzwerten in zeitlicher Abhängigkeit veränderbar ist. 8. The method as claimed in claim 7, characterized in that the free word associations are generated according to a neural learning rule using a positive or negative weighting, wherein the association of the synaptic connections can be changed in a time-dependent manner based on the relevance values.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass der Relevanzwert der Assoziationsrelation vergrößert wird, wenn für eine bestehende Synapse an verschiedenen Klartextpositionen wiederholt eine Wortpaar-Beziehung festgestellt wird. Method according to one of claims 1 to 8, characterized in that the relevance value of the association relation is increased if a word pair relationship is repeatedly determined for an existing synapse at different plain text positions.
10. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass der Relevanzwert der Assoziationsrelation verkleinert wird, wenn für eine bestehende Synapse an einer Klartextposition deren Quellwort, jedoch nicht das Zielwort der betreffenden Assoziation vorgefunden wird und/oder dass eine Assoziationsrelation gelöscht wird, wenn der Relevanzwert unter einen vorbestimmbaren Schwellenwert absinkt. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass für die Berechnung der Relevanzwerte der Assoziations-Relationen die Wortart der Quell- und Zielwörter der Assoziation berücksichtigt und/oder gewichtet wird. 10. The method according to any one of claims 1 to 8, characterized in that the relevance value of the association relation is reduced if, for an existing synapse at a plain text position whose source word, but not the target word of the association concerned is found and / or that an association relation is deleted if the relevance value falls below a predeterminable threshold value. Method according to one of Claims 1 to 10, characterized in that, for the calculation of the relevance values of the association relations, the part of speech of the source and target words of the association is taken into account and / or weighted.
PCT/EP2012/051134 2011-01-25 2012-01-25 Automatic extraction of information about semantic relationships from a document pool using a neural system WO2012101169A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102011009378A DE102011009378A1 (en) 2011-01-25 2011-01-25 Automatic extraction of information about semantic relationships from a pool of documents with a neural system
DE102011009378.8 2011-01-25

Publications (1)

Publication Number Publication Date
WO2012101169A1 true WO2012101169A1 (en) 2012-08-02

Family

ID=45833329

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2012/051134 WO2012101169A1 (en) 2011-01-25 2012-01-25 Automatic extraction of information about semantic relationships from a document pool using a neural system

Country Status (2)

Country Link
DE (1) DE102011009378A1 (en)
WO (1) WO2012101169A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
DE102004013924B3 (en) * 2004-03-22 2005-09-01 Siemens Ag Device for context-dependent data analysis has lower weights of couplings between neurons from different context, output or combinatorial neuron pools than between neurons from same context, output or combinatorial neuron pool
WO2006018041A1 (en) * 2004-08-13 2006-02-23 Swiss Reinsurance Company Speech and textual analysis device and corresponding method
US7496548B1 (en) * 2005-09-26 2009-02-24 Quintura, Inc. Neural network for electronic search applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
DE102004013924B3 (en) * 2004-03-22 2005-09-01 Siemens Ag Device for context-dependent data analysis has lower weights of couplings between neurons from different context, output or combinatorial neuron pools than between neurons from same context, output or combinatorial neuron pool
WO2006018041A1 (en) * 2004-08-13 2006-02-23 Swiss Reinsurance Company Speech and textual analysis device and corresponding method
US7496548B1 (en) * 2005-09-26 2009-02-24 Quintura, Inc. Neural network for electronic search applications

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIHLI HUNG ET AL: "Document classification - Hybrid neural document clustering using guided self-organization and wordnet", IEEE INTELLIGENT SYSTEMS, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 19, no. 2, 1 March 2004 (2004-03-01), pages 68 - 77, XP011109194, ISSN: 1094-7167, DOI: 10.1109/MIS.2004.1274914 *
MARIANO RUBIOLO ET AL: "Knowledge Source Discovery: An Experience Using Ontologies, WordNet and Artificial Neural Networks", 28 September 2009, KNOWLEDGE-BASED AND INTELLIGENT INFORMATION AND ENGINEERING SYSTEMS, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 66 - 73, ISBN: 978-3-642-04591-2, XP019131603 *

Also Published As

Publication number Publication date
DE102011009378A1 (en) 2012-07-26

Similar Documents

Publication Publication Date Title
DE102018009243A1 (en) Abstracting long documents using deep-learning structured documents
DE69937176T2 (en) Segmentation method to extend the active vocabulary of speech recognizers
DE112018000334T5 (en) System and method for domain independent aspect level mood recognition
DE112018002601T5 (en) PROCESSING NATURAL LANGUAGE USING CONTEXT-SPECIFIC WORD VECTORS
DE102005051617B4 (en) Automatic, computer-based similarity calculation system for quantifying the similarity of textual expressions
DE102019004300A1 (en) USE OF A DYNAMIC STORAGE NETWORK TO TRACK DIGITAL DIALOG STATES AND GENERATE ANSWERS
EP3798922A1 (en) Device and method for machine learning and controlling a machine
DE112013001740T5 (en) Word processing method for building a text model
DE102015121509A1 (en) Methodology and device for consistency check by comparison of ontology models
DE112020003909T5 (en) PROCEDURE FOR MULTIMODAL RETRIEVING RECOVERY AND CLUSTERS USING A DEEP CCA AND ACTIVE PAIRWISE QUERIES
DE10131193A1 (en) Age-oriented natural language document search based on histories according to sessions for answering a user's questions in a computer system hits keywords in a selection while performing an evaluation.
DE102022201753A1 (en) Extension of graph-based labeling rules for low-supervision training of machine learning-based proper noun recognition
EP0901658B1 (en) Process for optimizing fuzzy rules using a computer
DE102021130081A1 (en) AUTOMATIC ONTOLOGY EXTRACTION BASED ON DEEP LEARNING TO CAPTURE NEW AREAS OF KNOWLEDGE
DE202023102803U1 (en) System for emotion detection and mood analysis through machine learning
EP1187095A2 (en) Grapheme-phoneme assignment
DE102019211672A1 (en) Training method for an artificial neural network
DE19849855C1 (en) Method for using a computer system to generate a text expression automatically while retaining meaning determines a statistical model on a number of preset pairs of word meanings and associated expressions.
EP2221735A2 (en) Method for automatic classification of a text with a computer system
DE112021006602T5 (en) REFINING QUERY GENERATION PATTERNS
DE102016125162B4 (en) Method and device for the automatic processing of texts
WO2012101169A1 (en) Automatic extraction of information about semantic relationships from a document pool using a neural system
DE102020213176A1 (en) Device and method for filling a knowledge graph, training method therefor
DE102016217191A1 (en) Method for selecting and evaluating a plurality of data records from at least one data source
EP3531302A1 (en) Computer-implemented method for searching for responses

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12708724

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: FESTSTELLUNG EINES RECHTSVERLUSTS NACH REGEL 112(1) EPUE (EPA FORM 1205N VOM 01/10/2013)

122 Ep: pct application non-entry in european phase

Ref document number: 12708724

Country of ref document: EP

Kind code of ref document: A1