DE102015112101A1

DE102015112101A1 - Method for brainstorming

Info

Publication number: DE102015112101A1
Application number: DE102015112101.8A
Authority: DE
Inventors: Thomas Hartmann
Original assignee: Harting AG and Co KG
Current assignee: Harting Stiftung and Co KG
Priority date: 2015-07-24
Filing date: 2015-07-24
Publication date: 2017-01-26
Also published as: WO2017016538A1

Abstract

Zur Entwicklung und Verbesserung von Produkten, insbesondere aus dem Bereich der technischen Konstruktion, wird ein zweistufiges Verfahren zur Ermittlung relevanter Patentdokumente vorgeschlagen, bei dem natürlichen Personen durch die Kombination der dazugehörigen Patentgrafiken (23) zur Ideenfindung angeregt werden. Zur automatischen Auswahl der Patentdokumente wird in einer ersten Stufe eine Textklassifikation und in einer zweiten Stufe eine Bildklassifikation auf eine zuvor zusammengestellte Grundmenge (1) von Patentdokumenten angewandt, wobei die dazugehörigen Text- (3) und Bildklassifikatoren (7) zuvor trainiert werden können. Insbesondere kann der Textklassifikator (3) einen inhaltlichen Schwerpunkt aufweisen. Der Bildklassifikator (7) kann einen stärkeren formalen Charakter haben und sich insbesondere auf die Komplexheit der zu ermittelnden Patentgrafiken (23) beziehen.For the development and improvement of products, in particular in the field of engineering design, a two-stage process for identifying relevant patent documents is proposed, in which natural persons are stimulated by the combination of the associated patent graphics (23) for brainstorming. For the automatic selection of the patent documents, a text classification is applied in a first stage and a picture classification on a previously compiled basic set (1) of patent documents in a second stage, whereby the associated text (3) and image classifiers (7) can be trained beforehand. In particular, the text classifier (3) can have a focus on content. The image classifier (7) may have a more formal character and, in particular, relate to the complexity of the patent graphics (23) to be determined.

Description

Die Erfindung geht aus von einem Verfahren zur Ideenfindung nach dem Oberbegriff des unabhängigen Anspruchs 1.The invention is based on a method for brainstorming according to the preamble of independent claim 1.

Derartige Verfahren können insbesondere im industriellen Umfeld verwendet werden, um Ideen zur Entwicklung und Verbesserung von Produkten zu gewinnen. Insbesondere betrifft die Erfindung das Generieren von Innovationen im Bereich der technischen Konstruktion.Such methods can be used especially in the industrial environment to gain ideas for the development and improvement of products. In particular, the invention relates to the generation of innovations in the field of engineering design.

Stand der TechnikState of the art

Es ist beispielsweise aus der Druckschrift US5774833A bekannt, Texte und Bilder aus der Patentliteratur in einem Computer mit semantischen Methoden zu untersuchen.It is for example from the document US5774833A known to examine texts and images from the patent literature in a computer with semantic methods.

Die Druckschrift WO2008156507A1 beschreibt eine Methode zur automatischen Patentbewertung durch ein Computerprogramm.The publication WO2008156507A1 describes a method for automatic patent evaluation by a computer program.

Zur Steigerung der Wettbewerbsfähigkeit sind weiterhin in vielen Unternehmen interne Prozesse zur Entwicklung innovativer Produkte etabliert.In order to increase competitiveness, internal processes for the development of innovative products continue to be established in many companies.

So beschreibt die Druckschrift US20120054281A1 ein Verfahren zur Verbesserung der Leistung der gemeinschaftlichen Gruppeninnovation durch Teambildung in einer virtuellen Umgebung.This is how the document describes US20120054281A1 a method of improving the performance of collaborative group innovation through team building in a virtual environment.

Aus der Druckschrift „Ein methodischer Weg zu innovativen Technologien“ (Autor Spies, K., Verlag der Augustinus Buchhandlung, Aachen, 1996 ) ist es bekannt, Konstrukteuren/-innen ausgewählte Bilder aus Patenten technischer Produkte zu präsentieren, um es ihnen dadurch zu ermöglichen, die dort dargestellten technischen Prinzipien durch Umstrukturierung und/oder Übertragung auf andere Anwendungen zu neuen Ideen zu kombinieren. Diese Vorgehensweise hat sich insbesondere im Bergbau, im Maschinenbau und in der Bauindustrie, also in Bereichen der technischen Konstruktion, als besonders vorteilhaft erwiesen. Dabei wird insbesondere offenbart, dass die ausgestellten Patentzeichnungen nicht nur aus dem jeweiligen Aufgabengebiet, z.B. der IPC-(internationalen Patentklassifikation)Sektion/Klasse/Unterklasse/etc. stammen, sondern stattdessen ein möglichst breites thematisches Feld abdecken sollen.From the publication "A methodical way to innovative technologies" (author Spies, K., Verlag der Augustinus Buchhandlung, Aachen, 1996 ) it is known to present designers with selected images from patents of technical products, thereby enabling them to combine the technical principles presented there by restructuring and / or transferring them to other applications to new ideas. This approach has proven particularly advantageous in mining, mechanical engineering and in the construction industry, ie in areas of technical construction. It is disclosed in particular that the issued patent drawings not only from the respective area of responsibility, eg the IPC (International Patent Classification) Section / Class / Subclass / etc. but should instead cover as broad a thematic field as possible.

Nachteilig in diesem Stand der Technik ist, dass die Verfahren zur Innovationsgenerierung insbesondere für den Bereich der klein- und mitteständischen Unternehmen oft zu aufwendig sind und weiterhin vor dem Hintergrund immer kürzer werdender Produktlebenszyklen einen unerwünscht großen Zeitraum in Anspruch nehmen.A disadvantage of this prior art is that the methods for innovation generation, especially in the field of small and medium-sized companies are often too expensive and continue to take against the background of ever-shorter product life cycles an undesirably large period of time.

Aufgabenstellungtask

Die Aufgabe der Erfindung besteht daher darin, ein kostengünstiges und zeitsparendes Verfahren zur Innovationsgenerierung, insbesondere unter Verwendung einer themenbasierten Patentauswahl aus unterschiedlichen technologischen Anwendungsbereichen, zu entwickeln.The object of the invention is therefore to develop a cost-effective and time-saving method for innovation generation, in particular using a topic-based selection of patents from different technological fields of application.

Die Aufgabe wird mit einem Verfahren der eingangs erwähnten Art durch die Merkmale des kennzeichnenden Teils des unabhängigen Anspruchs 1 gelöst.The object is achieved by a method of the type mentioned by the features of the characterizing part of the independent claim 1.

Das Verfahren zur Ideenfindung weist folgende Schritte auf:

a.) automatische Analyse von Patentdokumenten, umfassend Patenttexte und Patentgrafiken, durch einen Computer;
b.) automatische Auswahl relevanter Patentdokumente durch den Computer;
c.) Darstellung der Patentgrafiken der ausgewählten Patentdokumente;
d.) Betrachten und kombinieren von in den dargestellten Patentgrafiken enthaltenen Merkmalen zum Generieren neuer Ideen durch natürliche Personen;

wobei zur Auswahl der Patentdokumente in Verfahrensschritt b.) in einer ersten Stufe eine Textklassifikation mit einem Textklassifikator, aufweisend eine Textklassifikationsfunktion, und in einer zweiten Stufe eine Bildklassifikation mit einem Bildklassifikator, aufweisend eine Bildklassifikationsfunktion, durchlaufen werden.The brainstorming process includes the following steps:

a.) automatic analysis of patent documents, including patent texts and patent graphics, by a computer;
b.) automatic selection of relevant patent documents by the computer;
c.) representation of the patent graphics of the selected patent documents;
d.) viewing and combining features contained in the illustrated patent graphics to generate new ideas by natural persons;

wherein for the selection of the patent documents in step b.) in a first stage a text classification with a text classifier having a text classification function, and in a second stage an image classification with an image classifier having an image classification function are traversed.

Vorteilhafterweise kann zur Durchführung des Verfahrens, insbesondere der Schritte a.) und b.), von dem Computer ein in einem dazugehörigen Speicher abgelegtes Programm von einem oder mehreren ebenfalls zum Computer gehörenden Prozessoren, insbesondere einem oder mehreren Mikroprozessoren, ausgeführt werden.Advantageously, in order to carry out the method, in particular steps a.) And b.), The computer executes a program stored in a corresponding memory of one or more processors likewise belonging to the computer, in particular one or more microprocessors.

Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.Advantageous embodiments of the invention are specified in the subclaims.

Bei dem Verfahren handelt es sich um eine Methode, schnell und preisgünstig Produktideen, insbesondere im Bereich der technischen Konstruktion, zu entwickeln. Weiterhin ist das Verfahren insbesondere zur Verbesserung entsprechender, bereits bestehender Produkte optimiert. The process is a method of quickly and inexpensively developing product ideas, particularly in the field of engineering design. Furthermore, the method is optimized in particular for improving corresponding, already existing products.

Das Verfahren hat den Vorteil, dass auch klein- und mittelständische Unternehmen in ihrer Ideenfindungsphase unterstützt werden, weil dazu lediglich eine kostenfrei oder zumindest sehr kostengünstig erhältliche Grundmenge an Patentdokumenten benötigt wird und weil das Verfahren weiterhin mit nur geringem finanziellem und zeitlichem Aufwand sowie mit vergleichsweise geringem Rechenaufwand verbunden ist.The method has the advantage that even small and medium-sized companies are supported in their brainstorming phase, because this is only a free or at least very inexpensive available basic amount of patent documents is needed and because the process continues with only a small financial and time effort and with comparatively little computational effort is connected.

Das Verfahren hat somit den Vorteil, dass ein solcher Ideenfindungsprozess innerhalb weniger Tage durchgeführt werden kann und somit den gefordert kurzen Entwicklungszeiträumen gerecht wird. Insbesondere wird a.) der Zeitraum der automatischen Analyse der Patentdokumente durch den Computer sowie b.) der Zeitraum der automatischen Auswahl der Patentdokumente insbesondere durch eine geeignete Kombination der Textklassifikation mit der Bildklassifikation extrem verkürzt. The process thus has the advantage that such a brainstorming process can be carried out within a few days and thus meets the demand for short development periods. In particular, a.) The period of automatic analysis of the patent documents by the computer and b.) The period of automatic selection of the patent documents are extremely shortened, in particular by a suitable combination of the text classification with the image classification.

In einer vorteilhaften Ausgestaltung werden die Ergebnisse der besagten beiden Stufen mit dem booleschen Operator „UND“ verknüpft. Dies kann zeitsparend sein, wenn zumindest Teile des Verfahrens, beispielsweise zu Testzwecken, mehrfach durchgeführt werden oder wenn bereits in den Computer eingelesene Dokumente in verschiedenen Analysen mehrfach mit demselben Klassifikator ausgewählt werden. Beispielsweise kann das Ergebnis der Klassifizierung, z.B. der Bildklassifizierung, dann auch als Klassifikationsfunktion zur jeweiligen Dokumentenmenge gespeichert werden oder die Dokumente können beispielsweise mit einem entsprechenden Attribut versehen werden.In an advantageous embodiment, the results of said two stages are linked to the Boolean operator "AND". This can be time-saving if at least parts of the method, for example for test purposes, are performed several times or if documents already read into the computer are repeatedly selected in different analyzes with the same classifier. For example, the result of the classification, e.g. the image classification, then stored as a classification function to the respective document quantity or the documents can be provided for example with a corresponding attribute.

Soll das Verfahren voraussichtlich nur einmalig durchgeführt werden, ist es gemäß einer weiteren Ausgestaltung besonders vorteilhaft, wenn zunächst eine der beiden Stufen von zu untersuchenden Patendokumenten durchlaufen wird, und lediglich die dabei ausgewählten Patentdokumente daraufhin die jeweils andere der beiden Stufen durchlaufen. Auf diese Weise brauchen nicht sämtliche Patentdokumente beide Stufen zu durchlaufen, wodurch Zeit und Rechenkapazität gespart wird. If the method is expected to be carried out only once, it is particularly advantageous according to a further embodiment, when initially one of the two stages of patent documents to be examined is run through, and then only pass through the other of the two stages selected patent documents. In this way, not all patent documents need to go through both stages, saving time and computing capacity.

Da die zweite Stufe die Grafikauswertung betrifft und voraussichtlich zeitaufwendiger ist als die erste Stufe, ist es dabei besonders vorteilhaft, wenn in der zeitlichen Abfolge zunächst die erste Stufe, welche die Textklassifikation betrifft, durchgeführt wird. Since the second stage relates to the graphics evaluation and is likely to be more time-consuming than the first stage, it is particularly advantageous if the first stage, which concerns the text classification, is carried out in chronological order.

Somit ist es also besonders vorteilhaft, wenn zunächst Patentdokumente anhand ihrer Patenttexte mittels der Textklassifikation analysiert und einer Auswahl unterzogen werden, und wenn daraufhin lediglich die Patentgrafiken der dabei ausgewählten Patentdokumente mittels der Bildklassifikation ihrerseits analysiert und einer weiteren Auswahl unterzogen werden.Thus, it is thus particularly advantageous if patent documents are first analyzed on the basis of their patent texts by means of the text classification and subjected to a selection, and then only the patent graphics of the selected patent documents are analyzed by the image classification and subjected to a further selection.

Somit wird nämlich die zweite Stufe lediglich von den Patentgrafiken der in der ersten Stufe gemäß ihrer Patenttexte als relevant ausgewählten Patentdokumenten durchlaufen, wodurch erheblich Rechenkapazität und Zeit eingespart wird. Schließlich muss auf diese Weise nur ein Bruchteil der in der ersten Stufe zu analysierenden Patentdokumente die besonders rechenintensive zweite Stufe durchlaufen. Beispielsweise kann eine Grundmenge 10.000 bis 20.000 zu untersuchende Patentdokumente umfassen. In der Praxis kann es sich bei der Auswahl der ersten Stufe beispielsweise um ca. 5%–10 % der Patentdokumente handeln, also um beispielsweise 1000 Dokumente, so dass in der besonders rechenintensiven zweiten Stufe nur noch diese 1000 Patentdokumente, d.h. mittels der Bildklassifikation deren Patentgrafiken, untersucht werden müssen wodurch in der zweiten Stufe z.B. 90 %–95% des Rechenaufwands eingespart werden kann.Thus, the second stage is only traversed by the patent graphics of the patent documents selected to be relevant in the first stage according to their patent texts, thereby saving considerable computing capacity and time. Finally, in this way, only a fraction of the patent documents to be analyzed in the first stage must pass through the particularly compute-intensive second stage. For example, a basic set may include 10,000 to 20,000 patent documents to be examined. In practice, the selection of the first stage may be, for example, about 5% -10% of the patent documents, ie, for example, 1000 documents, so that in the particularly compute-intensive second stage only these 1000 patent documents, i. by means of the image classification whose patent graphics must be examined, whereby in the second stage e.g. 90% -95% of the computational effort can be saved.

Zur entsprechenden Auswahl werden die Klassifikatoren, d.h. der Text- und der Bildklassifikator, folgendermaßen gebildet:
Bevorzugt wird durch ein sogenanntes „Trainieren“ eines Klassifikators, insbesondere des Textklassifikators, mit manuell ausgewählten Trainingsdokumenten die entsprechende Klassifikationsfunktion, insbesondere die Textklassifikationsfunktion, ermittelt. The classifiers, ie the text and image classifier, are formed as follows:
By means of a so-called "training" of a classifier, in particular of the text classifier, with manually selected training documents, the corresponding classification function, in particular the text classification function, is determined.

In einer bevorzugten Ausführungsform werden daher zum Trainieren zumindest des Textklassifikators für das aktuelle Ideenfindungsprojekt thematisch relevante Patentdokumente z.B. aus einer öffentlichen Datenbank als Trainingsdokumente ermittelt. Dazu kann ein relevantes Recherchekriterium verwendet werden. In empirischen Versuchen hat sich dazu herausgestellt, dass dabei eine technische Funktion, z.B. „Sägen“, „Schrauben“, Schweißen“, gegenüber entsprechenden Vorrichtungen, z.B. „Säge“, „Schraube“, „Schweißgerät“, eine wesentlich bessere Trefferquote erzielt. In a preferred embodiment, therefore, to train at least the text classifier for the current brainstorming project, thematically relevant patent documents, e.g. determined from a public database as training documents. For this purpose, a relevant search criteria can be used. In empirical experiments it has been found that a technical function, e.g. "Sawing", "Screwing", Welding "to corresponding devices, e.g. "Saw", "screw", "welding machine", achieved a much better hit rate.

Aus der Treffermenge können dann in Form einer händischen Endauswahl mit nur geringem manuellem Aufwand geeignete Patentdokumente als Trainingsdokumente ausgewählt werden. From the set of hits, suitable patent documents can then be selected as training documents in the form of a manual final selection with little manual effort.

In einer bevorzugten Ausgestaltung können somit besonders relevante Patentdokumente als relevant gekennzeichnet und als Trainingsdokumente zum Trainieren des Textklassifikators verwendet werden.In a preferred embodiment, therefore, particularly relevant patent documents can be identified as relevant and used as training documents for training the text classifier.

Weiterhin können auch nicht relevante Patentdokumente als nicht relevant gekennzeichnet und ebenfalls als Trainingsdokumente zum Trainieren des Textklassifikators verwendet werden.Furthermore, non-relevant patent documents can also be identified as irrelevant and also used as training documents for training the text classifier.

Dabei kann zur Merkmalsextraktion beispielsweise das dem Fachmann bekannte, sogenannte χ²-Verfahren („Chi-Square-Verfahren“) Verwendung finden, das im Folgenden näher beschrieben wird:
Mittels dem χ²-Verfahren wird im Allgemeinen die Unabhängigkeit zweier Variablen – und im vorliegenden Fall die Abhängigkeit eines Merkmals zu einer Kategorie – in diesem Fall relevant/nichtrelevant – festgestellt. Das χ²-Verfahren ist daher besonders gut dazu geeignet, die aussagekräftigsten Merkmale zu finden.In this case, for example, the feature known to the expert, so-called χ ² method ("Chi-Square method") Be used, which is described in more detail below:
By means of the χ ² method, the independence of two variables - and in this case the dependency of a feature on a category - in this case relevant / non-relevant - is generally determined. The χ ² method is therefore particularly well suited to finding the most meaningful features.

χ² kann dabei folgendermaßen bestimmt werden:

χ ² can be determined as follows:

In dieser Formel bedeuten:

A:: Anzahl der Dokumente aus einer Kategorie c, die ein bestimmtes Merkmal m enthalten;
B:: Anzahl der Dokumente, die nicht in der Kategorie c enthalten sind und, die das bestimmte Merkmal m enthalten;
C:: Anzahl der Dokumente aus Kategorie c, die das Merkmal m nicht enthalten;
D:: Anzahl der Dokumente, die nicht in der Kategorie c enthalten sind und die das Merkmal m nicht enthalten;
N:: Gesamtzahl der Dokumente in der dazugehörigen Trainingsmenge.

In this formula mean:

A:: Number of documents from category c containing a specific feature m;
B:: Number of documents that are not in category c and that contain the specific feature m;
C:: Number of documents from category c that do not contain the characteristic m;
D:: Number of documents that are not in category c and that do not contain m;
N:: Total number of documents in the corresponding training amount.

Allgemein können die Abhängigkeiten aller verwendeten Merkmale zu allen verwendeten Kategorien berechnet und anschließend gemittelt werden. Die Merkmale können nun für jede Kategorie in eine Reihenfolge (Ranking) gebracht werden. Je abhängiger das Merkmal von dieser Kategorie ist, desto höher steht es im Ranking. In general, the dependencies of all characteristics used can be calculated for all categories used and then averaged. The features can now be ranked for each category. The more dependent the characteristic of this category, the higher it stands in the ranking.

Die Verwendung des χ²-Verfahrens hat weiterhin den Vorteil, dass dadurch bereits eine Normierung auf das Intervall [0, 1] stattfindet, was die Ergebnisse vergleichbar macht. The use of the χ ² method has the further advantage that this already standardizes the interval [0, 1], which makes the results comparable.

In einer besonders bevorzugten Ausführungsform kann in der zweiten Stufe die Bildklassifikation ein formales Merkmal, insbesondere die Komplexheit der Patentzeichnungen, als Auswahlkriterium verwenden. Dies ist aus mehreren Gründen besonders vorteilhaft:In a particularly preferred embodiment, in the second stage, the image classification may use a formal feature, in particular the complexity of the patent drawings, as a selection criterion. This is particularly advantageous for several reasons:

Zum einen kann eine entsprechende Bildklassifikationsfunktion nach einmaliger Erstellung für sämtliche derartige Verfahren verwendet werden, kann also für derartige Verfahren unabhängig vom jeweiligen Thema des Ideenfindungsprojekts als allgemein vorgegeben angesehen werden. On the one hand, a corresponding image classification function after a single creation can be used for all such methods, and thus can be regarded as generally prescribed for such methods independently of the respective topic of the idea generation project.

Das Trainieren des Bildklassifikators braucht in diesem Fall nur einmalig stattzufinden. Dazu wird einmalig eine Gruppe von Trainingsdokumente mit manuell ausgewählten, komplexen und weniger komplexen Grafiken zusammengestellt, wobei die einzelnen Grafiken zum Trainieren des Bildklassifikators als komplex oder weniger komplex gekennzeichnet werden. Dann kann der Bildklassifikator einmalig, z.B. mit dem besagten χ²-Verfahren, berechnet werden.Training the image classifier in this case only needs to take place once. For this, a set of training documents with manually selected, complex and less complex graphics is assembled once, whereby the individual graphics for training the image classifier are marked as complex or less complex. Then the image classifier can be calculated once, eg with the said χ ² method.

Zum anderen ist dieses Kriterium der Komplexheit der Grafiken für die natürlichen Personen, also beispielsweise Entwickler, Konstrukteure, potentielle Erfinder, Interessierte Laien, etc., auch bei der Interpretation besonders vorteilhaft, da sich insbesondere die manuelle Erkennbarkeit durch die Auswahl weniger komplexer Grafiken erheblich verbessert und so den manuellen intellektuellen Aufwand bei der Kombination der darin enthaltenen Elemente erheblich verringert.On the other hand, this criterion of the complexity of the graphics for the natural persons, so for example developers, designers, potential inventors, amateurs interested, etc., also particularly advantageous in the interpretation, since in particular the manual recognition by the selection of less complex graphics significantly improved and thus significantly reduces the manual intellectual effort involved in combining the elements contained therein.

Die Komplexheit der Grafiken lässt sich beispielsweise durch das Verhältnis ihrer Linien zur Gesamtfläche der Grafik bestimmen. Dabei ist vorteilhafterweise zu berücksichtigen, dass es sich bei Patentzeichnungen grundsätzlich um Strichzeichnungen handelt, und dass die Stärke der Linien bei einer Vielzahl geeigneter Patentdokumente untereinander vergleichbar ist. Beispielsweise kann die Länge und/oder Fläche der Linien ins Verhältnis zur Größe, d.h. Diagonale oder Fläche, der Gesamtgrafik gesetzt werden. Insbesondere kann dabei die Zahl der entsprechenden Pixel verwendet werden. The complexity of the graphics can be determined, for example, by the ratio of their lines to the total area of the graphic. It is advantageously to be considered that patent drawings are basically line drawings, and that the strength of the lines is comparable among a large number of suitable patent documents. For example, the length and / or area of the lines may be proportionate to the size, i. Diagonal or plane, the overall graphics are set. In particular, the number of corresponding pixels can be used.

Somit kann der Anteil der Linien von aktuellen Analysewerkzeugen, also z.B. Bildanalysesoftware, mit nur geringem Rechenaufwand gut erkannt und bewertet werden. Thus, the proportion of lines of current analysis tools, e.g. Image analysis software, easily recognized and evaluated with low computational effort.

Weiterhin können Patentgrafiken, bei denen der Anteil der Linien an der Gesamtgrafik unterhalb eines bestimmten vorgegebenen Wertes liegt, als wenig komplex angesehen werden. Patentgrafiken, bei denen der Anteil der Linien an der Gesamtgrafik größer ist als der vorgegebene Wert, können als komplex angesehen werden.Furthermore, patent graphics in which the proportion of lines on the overall graphic is below a certain predetermined value can be considered to be less complex. Patent graphics in which the proportion of lines in the overall graphic is greater than the predetermined value can be considered complex.

Der besagte vorgegebene Wert kann in einer vorteilhaften Ausgestaltung auch anhand des gesamten zu untersuchenden Bildmaterials z.B. als Mittelwert bestimmt werden. Dann werden automatisch die im Verhältnis zur Gesamtheit am wenigsten komplexen Grafiken ausgewählt.The said predetermined value can, in an advantageous embodiment, also be determined on the basis of the entire image material to be examined, e.g. be determined as the mean. Then automatically the least complex graphics in relation to the whole are selected.

Der Wert kann aber auch unabhängig vom zu untersuchenden Bildmaterial vom Verfahren fest vorgegeben sein. Beispielsweise kann dieser Wert, z.B. bezogen auf das Verhältnis der Flächen, relativ klein sein und kann bei 0,01 % oder 0,05 % oder 0,1 % liegen, er kann aber auch bei 0,25% oder 0,5%, 1% oder 2,5% oder aber auch bei 5% oder 7,5% oder 10% oder mehr betragen, also z.B. bei 15% oder 20% oder noch darüber, z.B. bei 25%, 30%, 35% oder gar 40% liegen.The value can also be fixed by the method independently of the image material to be examined. For example, this value, for example based on the ratio of the areas, may be relatively small and may be 0.01% or 0.05% or 0.1%. but it can also be at 0.25% or 0.5%, 1% or 2.5% or else at 5% or 7.5% or 10% or more, eg at 15% or 20%. or even above, eg at 25%, 30%, 35% or even 40%.

Über diesen Wert kann vorteilhafterweise auch absolut eingestellt werden, wie komplex das Bildmaterial sein darf, um noch zur Auswahl zu gehören. This value can also be used to set absolutely absolute, how complex the image material may be in order to be part of the selection.

Somit kann die Bildklassifikation die Komplexheit der Patentgrafiken als Auswahlkriterium verwenden, indem diejenigen Patentdokumente ausgewählt werden, in deren Patentgrafiken das Verhältnis von Linien zur Gesamtfläche der Grafik geringer ist als bei denjenigen Patentdokumenten, die nicht ausgewählt werden.Thus, the image classification can use the complexity of the patent graphics as a selection criterion by selecting those patent documents in the patent graphics of which the ratio of lines to the total area of the graphic is less than those patent documents which are not selected.

Auf diese Weise können die weniger komplexen Patentgrafiken automatisch gemäß einem vorgegebenen Kriterium mit nur geringem Rechenaufwand ausgewählt werden.In this way, the less complex patent graphics can be automatically selected according to a predetermined criterion with little computational effort.

In einer weiteren vorteilhaften Ausbildung kann auch der Bildklassifikator, analog zum Textklassifikator, durch eine Auswahl von inhaltlich relevanten und nicht relevanten und entsprechend gekennzeichneten Trainingsdokumenten erzeugt werden. Dies kann sinnvoll sein, wenn die Bilder relevanter Dokumente markante Gemeinsamkeiten aufweisen, die sich, z.B. gemäß der IPC und/oder CPC-Klassifikation oder vergleichbaren weiteren Klassifikationen insbesondere auch Sektionsübergreifend auf den Themenschwerpunkt des Ideenfindungsprojekts beziehen.In a further advantageous embodiment, the image classifier, analogous to the text classifier, can be generated by a selection of content-relevant and non-relevant and appropriately marked training documents. This may be useful if the images of relevant documents have significant similarities, which may be, e.g. refer in particular to the topic focus of the brainstorming project according to the IPC and / or CPC classification or comparable further classifications.

Es ist somit möglich, dass auch der Bildklassifikator in einer besonders vorteilhaften Ausgestaltung ebenfalls inhaltliche Komponenten besitzt, also beispielsweise nach bestimmten geometrischen Formen, z.B. speziellen sogenannten „Steckgesichtern“, Verriegelungsvorrichtungen, Schaltungsanordnungen und dazugehörigen Symbolen, etc. sucht und entsprechende Patentdokumente auswählt. Somit kann die Bildanalyse in einer vorteilhaften Ausgestaltung beispielsweise auch Mustererkennungs- und/oder Musteranalyseverfahren beinhalten.It is thus possible that the image classifier in a particularly advantageous embodiment also has content-related components, that is, for example, for certain geometric shapes, e.g. special so-called "mating faces", locking devices, circuit arrangements and associated symbols, etc. searches and selects corresponding patent documents. Thus, in an advantageous embodiment, the image analysis may also include, for example, pattern recognition and / or pattern analysis methods.

Zum Trainieren und Anwenden des Textklassifikators/der Textklassifikatoren gibt es mehrere Möglichkeiten:
Ein erster Ansatz besteht darin, Patentdokumente verschiedener derartiger Sektionen, insbesondere IPC oder CPC-Sektionen, in der Trainingsphase getrennt voneinander als Trainingsdokumente zu verwenden, um so für jede Sektion einen eigenen Textklassifikator zu erhalten. In der drauf folgenden Auswahlphase können dann Patentdokumente der verschiedenen Sektionen mit einem jeweils dazugehörigen sektionsspezifischen Textklassifikator ausgewählt werden.There are several ways to train and apply the text classifier / classifiers:
A first approach is to use patent documents of various such sections, in particular IPC or CPC sections, separately in the training phase as training documents so as to obtain a separate text classifier for each section. In the subsequent selection phase then patent documents of the various sections can be selected with a respective section-specific text classifier.

Dies bedeutet zwar einen erheblich höheren Konfigurations- und Rechenaufwand, doch es erscheint zunächst durchaus nachvollziehbar, dass sich beispielsweise die sogenannte „Precision“, welche das Verhältnis Anzahl relevanter Dokumente/Anzahl gefundener Dokumente angibt, also in einfachen Worten „die Treffsicherheit“ des jeweiligen Klassifikators angibt, zumindest aufgrund der einheitlichen Wortbedeutungen innerhalb einer Sektion dadurch signifikant verbessern müsste.Although this means a much higher configuration and computational effort, but it seems at first quite understandable that, for example, the so-called "Precision", which specifies the ratio of number of relevant documents / number of documents found, so in simple words "the accuracy" of each classifier indicates that, at least because of the uniform meanings of words within a section, this would have to significantly improve.

Erstaunlicherweise wurde diese These zumindest durch die durchgeführten Versuchsreihen nicht bestätigt. Es konnte also zumindest bei den durchgeführten Untersuchungen kein nennenswerter Einfluss durch die Verwendung IPC-sektionsspezifischer Textklassifikatoren gefunden werden.Surprisingly, this thesis was not confirmed at least by the test series carried out. At least in the investigations carried out no appreciable influence could be found by the use of IPC-section-specific text classifiers.

Als besonders vorteilhaft für die Verringerung des manuellen Aufwands und/oder des insgesamt erheblichen Rechenaufwandes hat es sich daher herausgestellt, einen alternativen Ansatz zu verfolgen, der darin besteht, in der ersten Stufe, d.h. bei der Textklassifikation, Patentdokumente aus verschiedenen IPC-/CPC- oder ggf. auch aus weiteren Patenklassifikations-Sektionen mittels der gleichen Textklassifikationsfunktion auszuwählen. Mit anderen Worten kann ein einziger Klassifikator für Patentdokumente aus verschiedenen Sektionen, z.B. ICP-/PCP-Sektionen, verwendet werden, ohne dass sich dadurch das Ergebnis signifikant verschlechtert. Dadurch kann sowohl der manuelle Aufwand als auch der Rechenaufwand des Computers sowohl beim Konfigurieren des Systems als auch bei der eigentlichen regulären Patentdokumentauswahl erheblich reduziert werden.It has therefore proven to be particularly advantageous for the reduction of the manual effort and / or the overall considerable computational effort to pursue an alternative approach, which consists in, in the first stage, i. in the text classification, to select patent documents from different IPC / CPC or possibly also from other patent classification sections by means of the same text classification function. In other words, a single classifier for patent documents from different sections, e.g. ICP / PCP sections, without significantly degrading the result. As a result, both the manual effort and the computational cost of the computer can be significantly reduced both when configuring the system and during the actual regular choice of patent documents.

Für die Auswahlphase können beim Zusammenstellen der Grundmenge von Patentdokumenten aus einer Datenbank, z.B. aus einer öffentlichen Datenbank, beispielsweise mit dem Begriff „Verriegeln“ nicht nur aus der IPC-Sektion H „Elektrotechnik“ und Sektion F „Maschinenbau“, sondern weiterhin auch in Sektion B „Arbeitsverfahren“ und Sektion A „Täglicher Lebensbedarf“ Patentdokumente zusammengestellt werden. Aus der so zusammengestellten Grundmenge können somit auch Sektionsübergreifend mit dem Text- und/oder mit dem Bildklassifikator relevante Dokumente ausgewählt werden. Dabei kann der Textklassifikator naturgemäß eine stärkere inhaltliche Komponente besitzen und der Bildklassifikator kann bevorzugt formale Kriterien, wie z.B. die besagte Komplexheit bewerten. For the selection phase, when assembling the basic set of patent documents from a database, e.g. from a public database, for example with the term "locking" not only from the IPC section H "electrical engineering" and section F "mechanical engineering", but also in section B "working methods" and section A "Daily life requirement" patent documents are compiled. It is therefore also possible to select documents relevant to the text and / or the image classifier from the basic set composed in this way. The text classifier can of course have a stronger content component and the image classifier can preferably have formal criteria, such as e.g. to evaluate the said complexity.

Die Darstellung der Patentgrafiken zum Betrachten und Kombinieren durch natürliche Personen, also z.B. Entwickler, Konstrukteure, Fachleute, Interessierte Laien, etc., beschränkt sich weiterhin keineswegs auf herkömmliche Ausstellungen in Form von Galerien, in welchen Ausdrucke der Grafiken konventionell ausgehängt werden können. In einer weiteren bevorzugten Ausgestaltung können diese Grafiken, beispielsweise über ein Netzwerk, an Rechner der Teilnehmer, d.h. der besagten natürlichen Personen, verteilt und dort in Form eines Programms, z.B. als eine Slide-Show dargestellt werden. Dabei kann die Reihenfolge der einzelnen Grafiken, z.B. in Abhängigkeit von einem Zufallsgenerator, für verschiedene Teilnehmer variieren. Auch können dieselben Grafiken denselben Teilnehmern mehrfach aber in einer veränderten Reihenfolge präsentiert werden, um unterschiedliche Assoziationen auszulösen und Kombinationen herzustellen. Weiterhin sind Ausgestaltungen denkbar, bei denen die Teilnehmer den Computermonitor durchlaufende Grafiken per Mausklick auswählen oder Teile davon miteinander kombinieren und speichern können.The representation of the patent graphics for viewing and combining by natural persons, eg developers, designers, Experts, interested amateurs, etc., are by no means limited to conventional exhibitions in the form of galleries in which printouts of the graphics can be posted conventionally. In a further preferred embodiment, these graphics can be distributed, for example via a network, to computers of the subscribers, ie the said natural persons, and displayed there in the form of a program, eg as a slide show. The order of the individual graphics, eg depending on a random number generator, can vary for different subscribers. Also, the same graphics may be presented to the same participants multiple times but in a different order to trigger different associations and create combinations. Furthermore, embodiments are conceivable in which the participants can select the computer monitor continuous graphics by mouse click or parts of it can combine and save.

Ausführungsbeispielembodiment

Ein Ausführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird im Folgenden näher erläutert. Es zeigen:An embodiment of the invention is illustrated in the drawings and will be explained in more detail below. Show it:

1 einen vereinfachten Ablauf einer zweistufigen Auswahlphase; 1 a simplified procedure of a two-stage selection phase;

2 einen ausführlicheren Ablauf der zweistufigen Auswahlphase; 2 a more detailed process of the two-stage selection phase;

3 ein Prozessdiagramm einer dazugehörigen Trainingsphase; 3 a process diagram of an associated training phase;

4 einen Ablauf eines gesamten Ideenfindungsverfahrens; 4 a flow of an entire brainstorming process;

5a eine Klassifikation von Patentdokumenten verschiedener Sektionen mittels mehrerer sektionsspezifischer Klassifikatoren; 5a a classification of patent documents of different sections by means of several section-specific classifiers;

5b eine Klassifikation von Patentdokumenten verschiedener Sektionen mittels eines gemeinsamen Klassifikators. 5b a classification of patent documents of different sections by means of a common classifier.

Die Figuren enthalten teilweise vereinfachte, schematische Darstellungen. The figures contain partially simplified, schematic representations.

Zum Teil werden für gleiche, aber gegebenenfalls nicht identische Elemente identische Bezugszeichen verwendet. Verschiedene Ansichten gleicher Elemente könnten unterschiedlich skaliert sein.In part, identical reference numerals are used for the same but possibly not identical elements. Different views of the same elements could be scaled differently.

Die 1 zeigt einen grundsätzlichen, grob vereinfachten Ablauf einer zweistufigen Patentklassifikation in einer sogenannten „Auswahlphase“. Der Begriff „Auswahlphase“ dient dabei zur Unterscheidung von einer sonst im Ablauf ähnlichen, sogenannten „Trainingsphase“ und bedeutet, dass die in der Auswahlphase ermittelten, relevanten Patentgrafiken ein reguläres Ergebnis darstellen, das später zur Ideenfindung durch natürliche Personen, also z.B. Entwickler, Konstrukteure, Fachleute, Interessierte Laien, etc., ausgegeben werden kann. The 1 shows a basic, roughly simplified process of a two-stage patent classification in a so-called "selection phase". The term "selection phase" serves to distinguish it from a so-called "training phase" otherwise similar in the process and means that the relevant patent graphics determined in the selection phase represent a regular result that is later used to find ideas by natural persons, eg developers, designers , Professionals, interested lay people, etc., can be spent.

Bei dieser zweistufigen Patentklassifikation wird zunächst eine erste Stufe, aufweisend einen Textklassifikator 3, von Patentdokumenten einer Grundmenge 1 zur Analyse der dazugehörigen Patenttexte 2 durchlaufen und daraufhin wird eine zweite Stufe, aufweisend einen Bildklassifikator 7 lediglich von den in der ersten Stufe ausgewählten Patentdokumenten zur Analyse der dazugehörigen Patentgrafiken 6 durchlaufen.In this two-stage patent classification, first, a first stage, comprising a text classifier 3 , of patent documents of a basic quantity 1 for the analysis of the associated patent texts 2 go through and then becomes a second stage, having an image classifier 7 only of the patent documents selected in the first stage for the analysis of the associated patent graphics 6 run through.

Die Grundmenge 1 könnte theoretisch aus hunderttausenden oder gar Millionen von Patentdokumenten bestehen. Da für die Ideenfindungsmethode im Resultat jedoch nur ca. 100 relevante Patentgrafiken 23 benötigt werden, kann eine wesentlich geringere Grundmenge 1 von beispielsweise 5000 bis 10000 Dokumenten ausreichend sein. The basic quantity 1 theoretically could consist of hundreds of thousands or even millions of patent documents. However, as a result, only about 100 relevant patent graphics were used for the brainstorming method 23 can be required, a much lower basic amount 1 be sufficient, for example, 5000 to 10,000 documents.

Zur Gewinnung der Grundmenge 1 aus einer z.B. öffentlichen Datenbank kann dazu bereits eine thematische Vorauswahl, z.B. durch eine Schlagwortsuche und/oder durch eine grobe Einschränkung der IPC-/CPC-Sektionen oder dazugehöriger Patentklassen stattgefunden haben. Dies ist besonders vorteilhaft, weil durch das rechtzeitige Vermeiden völlig irrelevanter Themenkomplexe sehr viel Rechenleistung eingespart wird, wodurch das Verfahren sehr viel effizienter wird.To obtain the basic quantity 1 From a public database, for example, a thematic preselection, eg by a keyword search and / or a rough restriction of the IPC / CPC sections or associated patent classes, may have already taken place. This is particularly advantageous because the timely avoidance of completely irrelevant subject complexes saves a great deal of computing power, which makes the method much more efficient.

In der ersten Stufe werden die Patenttexte 2 der Patentdokumente der Grundmenge 1 mit einem Textklassifikator 3, aufweisend eine Textklassifikationsfunktion γ, ausgewählt. Dadurch wird aus der Grundmenge 1 eine erste Teilmenge 4 textlich relevanter Patentdokumente ausgewählt. Gleichzeitig wird dadurch auch automatisch eine Restmenge 5 textlich irrelevanter Patentdokumente erzeugt, die im weiteren Verfahren nicht mehr beachtet wird. In the first stage, the patent texts 2 the patent documents of the basic quantity 1 with a text classifier 3 , having a text classification function γ selected. This will be out of the basic set 1 a first subset 4 textually relevant patent documents selected. At the same time, this also automatically creates a residual quantity 5 textually irrelevant patent documents generated, which is no longer considered in the further process.

In der zweiten Stufe werden daraufhin die Patentgrafiken 6, welche zu den Patentdokumenten der ersten Teilmenge 4 gehören, zusammengestellt. Die Patentdokumente der ersten Teilmenge 4 werden nun durch eine zweite Klassifikation, nämlich eine Bildklassifikation mit einem Bildklassifikator 7, aufweisend eine Bildklassifikationsfunktion ε, wiederum in zwei weitere sogenannte „Kategorien“ aufgeteilt, nämlich in eine zweite Teilmenge 8 und in eine weitere Restmenge 9, wobei die zweite Teilmenge 8 nun diejenigen Patentdokumente umfasst, die sowohl entsprechend ihrem textlichen Inhalt als auch entsprechend ihrer Patentgrafik zur manuellen Analyse, Kombination und/oder Ideenfindung geeignet sind. Diese Patentdokumente werden in diesem Zusammenhang auch als relevante Dokumente und ihre Grafiken dementsprechend als relevante Patentgrafiken oder auch als relevante Patentbilder 23 bezeichnet. Die weitere Restmenge 9, gebildet aus den gemäß ihrer Grafiken nicht relevanten Patentdokumenten der ersten Teilmenge 4, wird im vorliegenden Verfahren nicht mehr beachtet.The second stage is followed by the patent graphics 6 which are among the patent documents of the first subset 4 belong, compiled. The patent documents of the first subset 4 are now by a second classification, namely an image classification with an image classifier 7 comprising an image classification function ε, again divided into two further so-called "categories", namely a second subset 8th and in another remaining quantity 9 , where the second subset 8th now includes those patent documents which, both according to their textual content and according to their patent graphics for manual Analysis, combination and / or brainstorming are suitable. These patent documents are in this context as relevant documents and their graphics accordingly as relevant patent graphics or as relevant patent images 23 designated. The remaining amount 9 , formed from the patent documents of the first subset that are not relevant according to their graphics 4 , is no longer considered in the present process.

Die 2 zeigt ein etwas ausführlicheres Prozessdiagramm der Auswahlphase im zweistufigen Verfahren.The 2 shows a more detailed process diagram of the selection phase in the two-stage process.

Im ersten Schritt 11 werden die Patenttexte 2 der Grundmenge 1, beispielsweise im dafür üblichen XML-Format, eingelesen. In einer möglichen Ausführungsform geschieht dies in Form von Volltexten, umfassend den sogenannten „Abstract“, d.h. die Zusammenfassung, weiterhin den sogenannten „Stand der Technik“, die sogenannte „Patentbeschreibung“, das sogenannte „Ausführungsbeispiel“ sowie die sogenannten „Ansprüche“. Bevorzugt kann jedoch auf den Textabschnitt, der den Stand der Technik beschreibt, verzichtet werden, weil dieser genau genommen nicht die Erfindung selbst beschreibt. Weiterhin kann vorteilhafterweise auch auf das Einlesen der Ansprüche verzichtet werden, weil diese verstärkt juristisch geprägte Formulierungen und Begriffe aufweisen, welche zur Ideenfindung erfahrungsgemäß weniger gut geeignet sind. In diesem Fall umfassen die eingelesen Texte also lediglich den Abstract, die allgemeine Patentbeschreibung und das Ausführungsbeispiel. Dazu ist es besonders vorteilhaft, wenn das Textformat, diese Unterscheidung ermöglicht, d.h. die verschiedenen Textabschnitte entsprechend kennzeichnet.In the first step 11 become the patent texts 2 the basic amount 1 , for example, in the usual XML format, read. In one possible embodiment, this is done in the form of full texts, comprising the so-called "abstract", ie the abstract, furthermore the so-called "prior art", the so-called "patent description", the so-called "embodiment" and the so-called "claims". Preferably, however, the text section which describes the prior art can be dispensed with because, strictly speaking, it does not describe the invention itself. Furthermore, the reading-in of the claims can advantageously also be dispensed with because they have increasingly juristically embossed formulations and terms which, according to experience, are less well suited for brainstorming. In this case, the read-in texts thus comprise only the abstract, the general patent description and the exemplary embodiment. For this purpose, it is particularly advantageous if the text format, this distinction allows, that identifies the different text sections accordingly.

Im zweiten Schritt 12 findet eine Extraktion von Merkmalen statt. Dies kann durch das Feststellen vollständiger Begriffe oder auch durch Teilbegriffe, d.h. sogenannte „n-Gramme“ geschehen. So werden beispielsweise aus dem Satz „Sie laufen zu ihr nach Hause“ folgende Trigramme (N = 3) gebildet: „sie, lau, auf, ufe, fen, zu, ihr, nac, ach, hau, aus, use“. Auch andere Merkmalsextrationen sind in diesem Zusammenhang möglich, z.B. bestehend aus mehreren Begriffen mit definierten Wortabständen bis hin zur grammatikalisch definierten Satzkonstruktionen mit einer Subjekt/Prädikat/Objektanalyse. In Zusammenhang damit oder auch separat davon ist auch eine sinngemäße Zusammenführung von Synonymen denkbar und kann sich je nach Aufgabenstellung als sinnvoll erweisen. Weiterhin ist eine vorangegangene Verwendung eines sogenannten „Stoppwortfilters“, der aussageschwache Begriffe, wie z.B. Artikel, Konjunktionen, Präpositionen, etc., eliminiert, sowie die Verwendung eines Thesaurus zur Korrektur von möglichen Rechtschreibfehlern, wie sie insbesondere durch das Einscannen von Dokumenten und einer anschließende optischen Schrifterkennung, z.B. dem sogenannten „OCR“ (optical character recognation), entstehen können, möglich und sinnvoll. Dabei kann auch das besagte χ²-Verfahren Verwendung finden.At the second step 12 An extraction of features takes place. This can be done by finding complete terms or by partial terms, ie so-called "n-grams". Thus, for example, the following trigrams (N = 3) are formed from the sentence "They walk to their homes": "they, lukewarm, open, close, to, their, oh, ah, hau, out, use". Other feature expressions are possible in this context, for example, consisting of several terms with defined word spacing up to the grammatically defined sentence structures with a subject / predicate / object analysis. In connection with this, or separately from it, it is also possible to merge synonyms in a meaningful way and, depending on the task, may prove useful. Furthermore, a previous use of a so-called "stop-word filter", which eliminates meaningful terms such as articles, conjunctions, prepositions, etc., as well as the use of a thesaurus for correcting possible spelling errors, in particular by scanning documents and a subsequent optical character recognition, such as the so-called "OCR" (optical character recognition), can arise, possible and useful. It can find ² method using also said χ.

Bei der Merkmalsgewichtung im dritten Schritt 13 kann die Häufigkeit der jeweiligen Merkmale absolut oder normiert verwendet und insbesondere auch mit ihrer Gesamthäufigkeit in der Grundmenge 1 abgeglichen werden. In the feature weighting in the third step 13 The frequency of the respective characteristics can be used absolutely or normalized and in particular also with their total frequency in the basic quantity 1 be matched.

Entsprechend einem sogenannten „Retrievalmodel“ können diese gewichteten Merkmale analysiert und im vierten Schritt 14 durch Anwenden der Textklassifikationsfunktion γ ausgewertet werden. According to a so-called "retrieval model", these weighted features can be analyzed and in the fourth step 14 by using the text classification function γ.

Als übliche Retrievalmodelle werden in der Praxis meist das sogenannte „Boolsche Model“, das sogenannte „Vektorraummodel“ sowie das sogenannte „probabilistisches Modell“ genutzt:
Diese sind folgendermaßen charakterisiert:
Das Boolsche Modell, auch bekannt als sogenannte „Schlagwortsuche“, basiert auf dem Ansatz, Textdokumente nach dem Vorhandensein oder Fehlen von Stichwörtern zu durchsuchen. Bei der Anwendung wird mittels einzelner Wörter gesucht. Ergebnis dieser Suche ist eine Menge der Dokumente, in der diese Suchwörter enthalten sind. Die Suchbegriffe können durch die logischen Operatoren „UND“, „ODER“ sowie „NOT“ kombiniert werden. Eine Rangfolge der Ergebnismenge ist dabei nicht möglich.The usual retrieval models used in practice are usually the so-called "Boolean model", the so-called "vector space model" and the so-called "probabilistic model":
These are characterized as follows:
The Boolean model, also known as "keyword search", is based on the approach of searching text documents for the presence or absence of keywords. The application searches by means of single words. The result of this search is a set of documents containing these keywords. The search terms can be combined by the logical operators "AND", "OR" and "NOT". A ranking of the result set is not possible.

Das Vektorraummodell basiert darauf, dass sowohl die Suchanfrage als auch die Dokumente der Ergebnismenge als Vektoren in einem hochdimensionalen Raum abgebildet werden. Die Vektoren der Anfrage und jedes Ergebnisses werden miteinander verglichen. Je ähnlicher sich diese Vektoren sind, desto höher wird die Relevanz des betreffenden Dokumentes der Ergebnismenge für die Antwort zur Anfrage eingeschätzt. Dadurch entsteht ein Ranking der Dokumente in der Ergebnismenge. Zur Verwendung des Vektorraum-Models zur Klassifikation der Dokumente kann beispielsweise die sogenannte „Support Vector Machine“ verwendet werden.The vector space model is based on mapping both the query and the documents of the result set as vectors in a high-dimensional space. The vectors of the query and each result are compared. The more similar these vectors are, the more highly the relevancy of the particular document of the result set for the response to the query is estimated. This results in a ranking of the documents in the result set. To use the vector space model for the classification of documents, for example, the so-called "Support Vector Machine" can be used.

Das probabilistische Modell basiert auf Wahrscheinlichkeitswerten. Die größte Herausforderung beim sogenannten „Information Retrieval“ (Informationsgewinnung) in Texten ist schließlich die Vagheit der Sprache. Somit gibt es keine absolute Sicherheit, dass ein Dokument zu einer Anfrage relevant ist. Daher werden Wahrscheinlichkeiten für die Relevanz von Dokumenten berechnet. Hierbei wird die Relevanz als Ähnlichkeitswert angegeben. Die Ähnlichkeit ist hierbei abhängig von der Häufigkeit der Suchbegriffe im Dokument. Je höher die errechnete Wahrscheinlichkeit ist, desto relevanter wird das Dokument für die Anfrage eingeschätzt. Als Wahrscheinlichkeitsbasiertes Klassifikationsverfahren kann beispielsweise das sogenannte „Naive-Bayes-Klassifikationsverfahren“ Verwendung finden.The probabilistic model is based on probability values. The biggest challenge in so-called "information retrieval" in texts is the vagueness of the language. Thus, there is no absolute assurance that a document is relevant to a request. Therefore, probabilities for the relevance of documents are calculated. Here, the relevance is given as a similarity value. The similarity depends on the frequency of search terms in the document. The higher the calculated probability, the more relevant the document is estimated for the query. As a probability-based classification method can For example, the so-called "Naive Bayes classification method" find use.

Entsprechend ihrer Gewichtung können die Patentdokumente durch das im vierten Schritt 14 erfolgte Anwenden der Textklassifikationsfunktion γ auf ihre Patenttexte 2 im fünften Schritt 15 einer Kategorie zugewiesen werden. Bei der Kategorie handelt es sich insbesondere um die zuvor beschriebene und in 1 dargestellte erste Teilmenge 4. According to their weighting, the patent documents can by the fourth step 14 applying the text classification function γ to their patent texts 2 in the fifth step 15 be assigned to a category. The category is in particular the one described above and in 1 illustrated first subset 4 ,

Zu den auf diese Weise im sechsten Schritt 16 aufgefundenen relevanten Patentdokumenten werden im siebten Schritt 17 die dazugehörigen Patentgrafiken 6 zusammengestellt.To the way in the sixth step 16 relevant patent documents found in the seventh step 17 the associated patent graphics 6 compiled.

Im achten Schritt 18 werden diese Patentgrafiken 6, beispielsweise als PNG-Dateien oder auch in irgendeinem anderen Grafikformat, eingelesen. Die Grafiken der textlich nicht relevanten Patendokumente der Restmenge 5 werden nicht eingelesen. Dadurch wird ein Einlesen von inhaltlich nicht relevanten Grafiken vermieden und führt damit zu einem schlanken und ressourcenschonenden Prozess. In the eighth step 18 become these patent graphics 6 , for example, as PNG files or in any other graphics format read. The graphics of the textually irrelevant patent documents of the remaining quantity 5 will not be read. This avoids the import of content-irrelevant graphics and thus leads to a lean and resource-saving process.

Im neunten Schritt 19 wird eine Merkmalsextraktion aus den Patentgrafiken mit einem sogenannten „Image Mining“ durchgeführt.In the ninth step 19 a feature extraction is performed from the patent graphics with a so-called "image mining".

Analog zur Textanalyse können beim Image Mining digitale Bilder, z.B. die Patentgrafiken 6 der Patentdokumente der ersten Teilmenge 4, nach vorgegebenen Kriterien gezielt gesucht werden. Dies basiert auf einer inhaltsbasierten Bildersuche, nämlich dem sogenannten „Content Based Image Retrieval“. Der Inhalt eines Bildes wird von einem Softwarealgorithmus analysiert. Dazu werden beispielsweise Farbe, Umrisse und Texturen verwendet. Mit Hilfe verschiedener Methoden können dabei Merkmale aus dem Bild extrahiert und als Merkmalsvektoren dargestellt werden. Sobald die Bildinformationen als Merkmalsvektoren vorliegen, können nun analog zur oben beschriebenen Textanalyse die Verfahren zur Merkmalsauswahl und im zehnten Schritt zur Merkmalsgewichtung 20 angewendet werden.Analogous to the text analysis, digital images, eg the patent graphics, can be used in image mining 6 the patent documents of the first subset 4 to be targeted according to given criteria. This is based on a content-based image search, namely the so-called "Content Based Image Retrieval". The content of an image is analyzed by a software algorithm. For example, colors, outlines, and textures are used. With the aid of various methods, features can be extracted from the image and displayed as feature vectors. As soon as the image information is available as feature vectors, the methods for feature selection and in the tenth step for feature weighting can now be used analogously to the text analysis described above 20 be applied.

So können durch das im elften Schritt 21 erfolgende Anwenden der Bildklassifikationsfunktion ε die Patentgrafiken im zwölften Schritt 22 verschiedenen Kategorien 8, 9 zugewiesen werden. Insbesondere findet eine binäre Klassifikation statt, d.h. die Grafiken werden gemäß einer Ja/Nein-Entscheidung zwischen zwei verschiedenen Kategorien aufgeteilt, nämlich zwischen der zweiten Teilmenge 8 und der dazugehörigen weiteren Restmenge 9. Die zweite Teilmenge 8 umfasst dann die relevanten Patentdokumente, beinhaltend die relevanten Patentbilder 23, welche zur manuellen Kombination/Analyse/Ideenfindung durch natürliche Personen geeignet sind.So by the eleventh step 21 successively applying the image classification function ε the patent graphics in the twelfth step 22 different categories 8th . 9 be assigned to. In particular, a binary classification takes place, ie the graphics are split according to a yes / no decision between two different categories, namely between the second subset 8th and the associated further residual quantity 9 , The second subset 8th then includes the relevant patent documents, including the relevant patent images 23 , which are suitable for manual combination / analysis / brainstorming by natural persons.

Um derartige Auswahlverfahren durchführen zu können, müssen jedoch zuvor die Textklassifikatonsfunktion γ und der Bildklassifikationsfunktion ε berechnet werden. In order to be able to perform such selection methods, however, the text classification function γ and the image classification function ε must first be calculated.

Die 3 zeigt dazu den Ablauf zum Trainieren des Text- 3 und des Bildklassifikators 7, also zur Berechnung der jeweiligen Klassifikationsfunktion γ, ε. The 3 shows the procedure for training the text 3 and the image classifier 7 , ie for the calculation of the respective classification function γ, ε.

Dazu werden zum Trainieren des Klassifikators, in diesem Falle des Textklassifikators 3, zunächst manuell inhaltlich geeignete Patentdokumente ausgewählt, die im Folgenden als Trainingsdokumente bezeichnet werden. Diese Trainingsdokumente sollten nicht Bestandteil der Grundmenge 1 sein, um das Ergebnis nicht durch ein sogenanntes „Übertrainieren“ zu verfälschen. Dazu können diese Trainingsdokumente beispielsweise zunächst mit Schlagworten in einer z.B. öffentlichen Patentdatenbank gesucht und daraufhin manuell ausgewählt werden. Als Richtwert können beispielsweise mindestens 100, also beispielsweise etwa 250–500 Dokumente auf diese Weise als relevante Trainingsdokumente verwendet werden. Weiterhin wird auch eine Menge nichtrelevanter Trainingsdokumente ausgewählt und in etwa gleicher Anzahl, d.h. ebenfalls mindestens 100, bevorzugt 250–500 Dokumente ausgewählt. Diese manuell ausgewählten relevanten und nichtrelevanten Trainingsdokumente werden im Folgenden als Trainingsdokumente verwendet.These are used to train the classifier, in this case the text classifier 3 , first manually selected substantively suitable patent documents, which are referred to below as training documents. These training documents should not be part of the basic quantity 1 so as not to distort the result by so-called "over-training". For this purpose, these training documents, for example, first searched with keywords in a public patent database, for example, and then manually selected. As a guideline, for example, at least 100, so for example about 250-500 documents can be used in this way as relevant training documents. Furthermore, a lot of non-relevant training documents are selected and selected in about the same number, ie also at least 100, preferably 250-500 documents. These manually selected relevant and non-relevant training documents are used below as training documents.

Im ersten Schritt 11´ des Trainings des Textklassifikators 3 werden die zu diesen Trainingsdokumenten gehörenden Texte in den Computer eingelesen und dabei als relevant oder nicht relevant gekennzeichnet. In the first step 11' the training of the text classifier 3 The texts belonging to these training documents are read into the computer and marked as relevant or irrelevant.

Im zweiten Schritt 12´ findet eine Extraktion von Merkmalen aus diesen Trainingsdokumenten analog zum oben beschriebenen zweiten Schritt 12 der Auswahlphase statt. Dabei, kann in guter Näherung das dem Fachmann bekannte und oben bereits ausführlich beschriebene χ²-Verfahren als vereinfachter Ansatz für das probabilistische Modell auf der Basis von Häufigkeitswerten statt Wahrscheinlichkeiten eingesetzt werden. Auch findet dadurch aus folgendem Grund eine erhebliche Einsparung von Rechenleistung statt:
Da viele Merkmale das Verfahren sowohl in der Trainingsphase als auch in der Auswahlphase sehr stark verlangsamen würden, daher ist es vorteilhaft, nur die aussagekräftigsten Merkmale zu verwenden, also diejenigen Merkmale, welche die relevanten von den irrelevanten Dokumenten am deutlichsten unterscheiden. Mittels dem χ²-Verfahren wird im Allgemeinen die Unabhängigkeit zweier Variablen – und im vorliegenden Fall die Abhängigkeit eines Merkmals zu einer Kategorie – in diesem Fall relevant/nichtrelevant – festgestellt. Das χ²-Verfahren ist daher besonders gut dazu geeignet, diese aussagekräftigsten Merkmale zu finden.At the second step 12' finds an extraction of features from these training documents analogous to the second step described above 12 the selection phase. In this case, the dem ² method known to those skilled in the art and already described in detail above can be used as a simplified approach for the probabilistic model on the basis of frequency values instead of probabilities. There is also a considerable saving in computing power for the following reason:
Because many features would greatly slow down the process in both the training phase and the selection phase, it is advantageous to use only the most meaningful features, those features that most clearly distinguish the relevant from the irrelevant documents. By means of the χ ² method, the independence of two variables - and in this case the dependency of a feature on a category - in this case relevant / non-relevant - is generally determined. The χ ² method is therefore particularly well suited to finding these most meaningful features.

Das χ²-Verfahren kann zur Merkmalsextraktion 12, 12´, 19, 19´, sowohl in der Trainings- als auch in der Auswahlphase sowohl für die Text- als auch für die Bildanalyse eingesetzt werden. Weiterhin kann das χ²-Verfahren zur Berechnung 30, 31 der Klassifikationsfunktionen ε, γ verwendet werden.The χ ² method can be used for feature extraction 12 . 12' . 19 . 19' be used both in the training and in the selection phase for both text and image analysis. Furthermore, the χ ² method can be used for the calculation 30 . 31 the classification functions ε, γ are used.

Im dritten Schritt 13´ der Trainingsphase findet die Merkmalsgewichtung 13´ analog zur Merkmalsgewichtung 13 der Auswahlphase statt. Dabei kann insbesondere die Häufigkeit des Auftretens bestimmter Kennzeichen ausgewertet und kann weiterhin in ein Verhältnis zu der Gesamthäufigkeit dieser Kennzeichen gesetzt werden.In the third step 13' the training phase finds the feature weighting 13' analogous to the feature weighting 13 the selection phase. In particular, the frequency of occurrence of particular identifiers can be evaluated and can furthermore be set in relation to the total frequency of these identifiers.

Im vierten Schritt 14´ wird die Textklassifikationsfunktion γ berechnet. Dabei kann beispielsweise mit dem oben beschriebenen χ²-Verfahren die Relevanz einzelner gewichteter Merkmale genutzt werden, um bezogen auf den gesuchten Inhalt die relevantesten Merkmale auszuwählen. In the fourth step 14' the text classification function γ is calculated. In this case, for example, with the χ ² method described above, the relevance of individual weighted features can be used in order to select the most relevant features in relation to the searched content.

Das Trainieren des Bildklassifikators 7 verläuft im Wesentlichen analog zu dem vorgenannten Trainieren des Textklassifikators 3. Es werden eine geeignete Anzahl > 100, z.B. zwischen 250 und 500 relevante Grafikdokumente als Trainingsdokumente gemäß ihrer Eigenschaften manuell ausgewählt. Diese Dokumente sollten bevorzugt nicht zu den Patentdokumenten der Grundmenge 1 und insbesondere nicht zur ersten Teilmenge 4 gehören, um das Ergebnis nicht durch das besagte Übertrainieren zu verfälschen. The training of the image classifier 7 is essentially analogous to the aforementioned training of the text classifier 3 , A suitable number> 100, eg between 250 and 500 relevant graphic documents are selected manually as training documents according to their properties. These documents should not be preferred to the patent documents of the basic set 1 and especially not to the first subset 4 belong to not distort the result by the said overtraining.

Diese Trainingsdokumente werden im ersten Schritt 18´ des Trainings des Bildklassifikators 7 als relevant oder nicht relevant gekennzeichnet und in den Computer eingelesen.These training documents are in the first step 18' the training of the image classifier 7 marked as relevant or not relevant and read into the computer.

Im zweiten Schritt 19´ werden mittels dem oben genannten „image mining“ die Merkmale extrahiert und im dritten Schritt 20´ z.B. mit dem χ²-Verfahren gewichtet, um so im vierten Schritt 21´ die Klassifikationsfunktion ε berechnen zu können.At the second step 19' the features are extracted by means of the above-mentioned "image mining" and in the third step 20' weighted eg with the χ ² method, so in the fourth step 21' to be able to calculate the classification function ε.

Alternativ zum Trainieren des Bildklassifikators 7 kann dieser auch fest vorgegeben sein und kann zum Verfahren gehören. Insbesondere ist dies sinnvoll, wenn der Bildklassifikator 7 sich ausschließlich auf formale Merkmale, beispielsweise die Komplexheit der Grafiken, bezieht. Entweder kann er dann einmalig durch Trainieren mit Trainingsdokumenten, die gemäß dieser Formalen Kriterien ausgewählt wurden, ermittelt worden sein. Alternativ dazu kann als Kriterium auch ein fester Wertdefiniert werden, beispielswiese das Verhältnis in der Grafik erkannter Linien, z.B. deren Gesamtlänge oder deren Fläche, z.B. Anzahl ihrer Pixel, zu der Gesamtabmessung der Grafik, z.B. deren Diagonale oder Fläche, z.B. Anzahl deren Pixel. Darüber ist die Komplexität der gesuchten relevanten Patentgrafiken dann manuell einstellbar.As an alternative to training the image classifier 7 This can also be fixed and can be part of the procedure. In particular, this makes sense if the image classifier 7 refers exclusively to formal features, such as the complexity of the graphics. Either he can then be determined once by training with training documents selected according to these formal criteria. Alternatively, a fixed value can be defined as a criterion, for example the ratio in the graph of recognized lines, eg their total length or their area, eg number of pixels, to the overall dimension of the graphic, eg its diagonal or area, eg number of pixels. In addition, the complexity of the searched relevant patent graphics is then manually adjustable.

Die 4 stellt beispielhaft einen möglichen Gesamtablauf eines Verfahrens zur Ideenfindung dar.The 4 exemplifies a possible overall flow of a method for brainstorming.

In Punkt I.) wird die Grundmenge 1 von mindestens 500 Patentdokumenten mit dazugehörigen Patenttexten 2 einer bestimmten Sprache zusammengestellt.In point I .) becomes the basic quantity 1 of at least 500 patent documents with associated patent texts 2 a specific language.

In Punkt II.) erfolgt unabhängig davon eine manuelle Auswahl von Trainingsdokumenten je nach Thema der technischen Problemstellung. Dabei sollen die Trainingsdokumente nicht in der Grundmenge 1 enthalten sein.In point II .) takes place independently of a manual selection of training documents depending on the topic of the technical problem. The training documents should not be in the basic quantity 1 be included.

In Punkt III.) erfolgt das Trainieren eines insbesondere binären Textklassifikators 3 mit Trainingsdokumenten mittels einer automatischen Merkmalsextraktion aus den Trainingsdokumenten.In point III .), the training of a particular binary text classifier takes place 3 with training documents by means of an automatic feature extraction from the training documents.

In Punkt IV.) wird der so ermittelte Textklassifikator 3 auf die Patentdokumente 2 der Grundmenge 1 angewendet. Dadurch wird die erste Teilmenge 4 erzeugt.In point IV .) becomes the text classifier thus determined 3 on the patent documents 2 the basic amount 1 applied. This will become the first subset 4 generated.

In Punkt V.) werden Patentgrafiken 6 zu den Patentdokumenten der ersten Teilmenge 4 zusammengestellt.In point V .) become patent graphics 6 to the patent documents of the first subset 4 compiled.

In Punkt VI.) werden manuell geeignete Patentgrafiken als Trainingsdokumente für den Bildklassifikator 7 ausgewählt, wobei die dazugehörigen Patentdokumente bevorzugt nicht zu der Grundmenge 1 und insbesondere nicht zu der ersten Teilmenge 4 gehören. Die Patentgrafiken können relevant und nicht relevant sein und dem entsprechend gekennzeichnet zum Trainieren des Bildklassifikators 7 eingesetzt werden. In point VI .) manually become suitable patent graphics as training documents for the image classifier 7 The associated patent documents preferably do not belong to the basic quantity 1 and especially not to the first subset 4 belong. The patent graphics may be relevant and irrelevant and labeled accordingly for training the image classifier 7 be used.

In Punkt VII.) wird ein Bildklassifikator 7 durch die automatische Merkmalsextraktion 19´ aus diesen Trainingsdoumenten trainiert. Alternativ dazu kann auch ein vorgegebener Bildklassifikator 7 verwendet werden, bei dem insbesondere ein formales und daher themenübergreifendes Kriterium, beispielsweise die Komplexheit der Bilder, als Auswahlkriterium verwendet wird.In point VII .) becomes an image classifier 7 through the automatic feature extraction 19' trained from these training documents. Alternatively, a given image classifier can also be used 7 In particular, a formal and therefore cross-thematic criterion, for example the complexity of the images, is used as a selection criterion.

in Punkt VIII.) wird der Bildklassifikator 7 auf die Patentgrafiken 6 der ersten Teilmenge 4 angewendet, um so eine zweiten Teilmenge 8 zu erzeugen.in point VIII .) becomes the image classifier 7 on the patent graphics 6 the first subset 4 applied to a second subset 8th to create.

In Punkt IX.) werden die Patentgrafiken der Patentdokumente der der zweiten Teilmenge 8 ausgegeben. In point IX .), the patent graphics of the patent documents become the second subset 8th output.

In Punkt X.) können optional technischen Lösungen, die in den Patentgrafiken der zweiten Teilmenge 8 enthalten sind, miteinander kombiniert werden. Dieser Punkt ist für die Durchführung des Verfahrens nicht notwendigIn point X .) can optionally provide technical solutions in the patent graphics of the second subset 8th are combined with each other. This point is not necessary for the implementation of the procedure

In Punkt XI.) können die Patentgrafiken oder auch Kombination der Lösungsbausteine aus dem optionalen Punkt X.), z.B. als Bilder ausgegeben werden, beispielsweise durch sichtbares Aushängen der Ausdrucke in einer Galerie oder durch grafische Darstellung mittels eines Computerprogramms z.B. über ein Netzwerk oder dergleichen.In point XI .) can the patent graphics or combination of solution blocks from the optional point X .), For example, as images are output, for example, by visibly unhooking the prints in a gallery or by graphical representation using a computer program, for example via a network or the like.

In Punkt XII.) werden die Kombinationen manuell durch die natürlichen Personen, also Teilnehmer des Ideenfindungsverfahrens, bewertet.In point XII .), the combinations are evaluated manually by the natural persons, ie participants of the brainstorming process.

Die 5 stellt den Unterschied zwischen der Auswahl mittels der in 5a dargestellten sektionsspezifischen Textklassifikationsfunktionen γ₁, γ₂, γ₃ und der in 5b dargestellten nicht sektionsspezifischen Textklassifikationsfunktion γ dar.The 5 represents the difference between the selection by means of in 5a shown section-specific text classification functions γ ₁ , γ ₂ , γ ₃ and the in 5b represented non-section-specific text classification function γ.

In der 5a werden die Patentexte einzelner IPC-Sektionen S1, S2, S3 jeweils über einen dazugehörigen Textklassifikator 3´, 3´´, 3´´´, aufweisend eine entsprechende Textklassifikationsfunktion γ₁, γ₂, γ₃, ausgewählt.In the 5a the patent texts of individual IPC sections S1, S2, S3 are each provided with an associated text classifier 3 ' . 3'' . 3''' , having a corresponding text classification function γ ₁ , γ ₂ , γ ₃ , selected.

Aus den dadurch jeweils ermittelten relevanten Patentdokumenten werden dann jeweils Unterteilmengen 4´, 4´´, 4´´´ erzeugt. Diese Unterteilmengen 4´, 4´´, 4´´´ können dann wieder zu der ersten Teilmenge 4 vereinigt werden. Die nicht relevanten Patentdokumente werden entsprechend den dazugehörigen Restmengen 5´, 5´´, 5´´´ zugeführt, welche für das Verfahren nicht mehr beachtet werden.From the respectively determined relevant patent documents are then each subset quantities 4' . 4'' . 4''' generated. These subset quantities 4' . 4'' . 4''' can then go back to the first subset 4 to be united. The non-relevant patent documents are according to the associated remainders 5 ' . 5'' . 5''' fed, which are no longer considered for the process.

In der 5b ist dargestellt, wie die Patentdokumente der drei verschiedenen IPC-Sektionen S1, S2, S3 über einen einzigen gemeinsamen Textklassifikator 3 zum Erzeugen der ersten Teilmenge 4 ausgewählt werden. In the 5b is shown as the patent documents of the three different IPC sections S1, S2, S3 on a single common text classifier 3 for generating the first subset 4 to be selected.

In der Praxis funktioniert diese Auswahl über einen einzigen gemeinsamen Textklassifikator 3 gemäß der vorliegenden Versuchsergebnisse schneller und ohne nennenswerte qualitative Einbußen gegenüber der wesentlich umständlicheren sektionsspezifischen Auswahl durch mehrere Textklassifikatoren 3´, 3´´, 3´´´.In practice, this selection works through a single common text classifier 3 According to the present test results faster and without significant qualitative losses compared to the much more cumbersome section selection by several text classifiers 3 ' . 3'' . 3''' ,

BezugszeichenlisteLIST OF REFERENCE NUMBERS

11: Grundmenge der Patentdokumente Basic set of patent documents
22: Patenttexte der Patentdokumente der Grundmenge Patent texts of the patent documents of the basic quantity
3, 3´, 3´´, 3´´´3, 3', 3'', 3''': Textklassifikator, sektionsspezifische Textklassifikatoren Text classifier, section-specific text classifiers
44: erste Teilmenge first subset
4´, 4´´, 4´´´ 4', 4'', 4''': Unterteilmengen der ersten Teilmenge Subset sets of the first subset
5, 5´, 5´´, 5´´´5, 5', 5'', 5''': Restmenge(n) Remaining amount (n)
66: Patentgrafiken der zu analysierenden Patentdokumente Patent graphics of the patent documents to be analyzed
77: Bildklassifikator Bildklassifikator
88th: zweite Teilmenge second subset
99: weitere Restmenge further residual quantity
1111: Einlesen der Patenttexte der Grundmenge in den Computer Reading the patent texts of the basic quantity into the computer
11´11': Einlesen der Trainingsdokumente in den Computer Reading the training documents into the computer
12, 12´12, 12': Merkmalsextraktion (Text) Feature extraction (text)
13, 13´13, 13': Merkmalsgewichtung(Text) Feature weighting (Text)
1414: Anwenden der Textklassifikationsfunktion Apply the text classification function
14´14': Berechnung der Textklassifikationsfunktion Calculation of the text classification function
1515: Zuweisung relevanter Patentdokumente zu der ersten Teilmenge Assignment of relevant patent documents to the first subset
1616: relevante Patenttexte relevant patent texts
1717: Zusammenstellen relevanter Patentgrafiken Compiling relevant patent graphics
1818: Einlesen zu untersuchender Patentgrafiken Reading in for patent graphics
18´18': Einlesen der Patentgrafiken der Trainingsdokumente Reading the patent graphics of the training documents
19, 19´19, 19': Merkmalsextraktion (Grafik) Feature extraction (graphic)
20, 2120, 21: Merkmalsgewichtung (Grafik) Feature weighting (graphic)
2121: Anwenden der Bildklassifikationsfunktion Apply the image classification function
21´21': Berechnung der Bildklassifikationsfunktion Calculation of the image classification function
2222: Zuweisung relevanter Patentgrafiken zu der zweiten Teilmenge Assignment of relevant patent graphics to the second subset
2323: relevante Patentgrafiken relevant patent graphics
γ, γ₁, γ₂, γ₃ γ, γ ₁ , γ ₂ , γ ₃: Textklassifikationsfunktion, sektionsspezifische TextklassifikationsfunktionenText classification function, Section-specific text classification functions
εε: Bildklassifikationsfunktion Image classification function
S1, S2, S3S1, S2, S3: Patentexte einzelner Patentkassifikationssektionen, (z.B. IPC-Sektionen, CPC-Sektionen) Patent texts of individual patent certification sections (e.g., IPC sections, CPC sections)
I.)–XII.)I) -. XII).: Verfahrensschritte eines möglichen Gesamtablaufs eines Verfahrens zur IdeenfindungProcess steps of a possible overall sequence of a method for brainstorming

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

US 5774833A [0003]
WO 2008156507 A1 [0004]
US 20120054281 A1 [0006]

Zitierte Nicht-PatentliteraturCited non-patent literature

Spies, K., Verlag der Augustinus Buchhandlung, Aachen, 1996 [0007]

Claims

Method for generating ideas, in particular for developing and improving products in the field of technical construction, comprising the following steps: a.) Automatic analysis of patent documents, comprising patent texts ( 2 ) and patent graphics ( 6 ), by a computer; b.) automatic selection of relevant patent documents by the computer; c.) Presentation of the patent graphics ( 23 ) of the selected patent documents; d.) viewing and combining features contained in the illustrated patent graphics to generate new ideas by natural persons; characterized in that for the selection of the patent documents in method step b.) in a first stage a text classification with a text classifier ( 3 ), comprising a text classification function (γ), and in a second stage an image classification with an image classifier ( 7 ) having an image classification function (ε).

A method according to claim 1, characterized in that the results of the two stages are combined with the Boolean operator "AND".

A method according to claim 1, characterized in that initially one of the two stages is run through, and that then only the patent documents selected thereby pass through the respective other of the two stages.

Method according to claim 3, characterized in that first of all the first step of 1 patent documents, with part of the patent documents being considered as a first subset ( 4 ), and that then the second stage is only covered by the patent documents of the first subset ( 4 ).

Method according to one of the preceding claims, characterized in that the text classification function (γ) is obtained by training the text classifier ( 3 ) is determined with manually selected training documents.

Method according to claim 5, characterized in that said training documents are previously determined manually on the basis of a search criterium relevant to the respective brainstorming, in particular on the basis of a technical function, and identified in each case as relevant or not relevant.

Method according to one of the preceding claims, characterized in that the image classification the complexity of the patent graphics ( 6 ) used as a selection criterion.

A method according to claim 7, characterized in that the image classification function (ε) is predetermined.

Method according to one of the preceding claims, characterized in that the image classification function (ε) by training the image classifier ( 7 ) is determined with manually selected training documents.

Method according to one of the preceding claims, characterized in that in the text classification patent documents from different sections (S1, S2, S3) are selected with the same text classification function (γ).