WO2017016538A1 - Method for finding ideas - Google Patents

Method for finding ideas Download PDF

Info

Publication number
WO2017016538A1
WO2017016538A1 PCT/DE2016/100302 DE2016100302W WO2017016538A1 WO 2017016538 A1 WO2017016538 A1 WO 2017016538A1 DE 2016100302 W DE2016100302 W DE 2016100302W WO 2017016538 A1 WO2017016538 A1 WO 2017016538A1
Authority
WO
WIPO (PCT)
Prior art keywords
documents
patent documents
graphics
text
training
Prior art date
Application number
PCT/DE2016/100302
Other languages
German (de)
French (fr)
Inventor
Thomas Hartmann
Original Assignee
Harting Ag & Co. Kg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harting Ag & Co. Kg filed Critical Harting Ag & Co. Kg
Publication of WO2017016538A1 publication Critical patent/WO2017016538A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Definitions

  • the invention is based on a method for brainstorming according to the preamble of independent claim 1.
  • Such methods can be used especially in the industrial environment to gain ideas for the development and improvement of products.
  • the invention relates to the generation of innovations in the field of engineering design.
  • document US 2012/0054281 A1 describes a method for improving the performance of collaborative group innovation by team building in a virtual environment.
  • Document US 2015/0121185 A1 discloses a computer-implemented method for displaying a graphical representation of a classification of a set of patent applications into several categories according to an attribute.
  • a disadvantage of this prior art is that the processes for innovation generation, especially in the field of small and medium-sized companies are often too expensive and continue to take against the background of ever-shorter product life cycles an undesirably large period of time.
  • the object of the invention is therefore to develop a cost-effective and time-saving method for innovation generation, in particular using a topic-based selection of patents from different technological fields of application.
  • the ratio of a number of useful patent documents to a total number of patent documents should be optimized with the least possible time and computation.
  • the brainstorming process includes the following steps: a. ) automatic analysis of patent documents, including patent texts and patent graphics, by a computer; b. ) automatic selection of relevant patent documents by the computer; c.) representation of the patent graphics of the selected patent documents; d.) viewing and combining features contained in the illustrated patent graphics to generate new ideas by natural persons; wherein for the selection of the patent documents in step b.) in a first stage a text classification with a text classifier having a text classification function, and in a second stage an image classification with an image classifier having an image classification function, are traversed.
  • the computer executes a program stored in a corresponding memory of one or more processors likewise belonging to the computer, in particular one or more microprocessors.
  • the process is a method of quickly and inexpensively developing product ideas, particularly in the field of engineering design. Furthermore, the method is optimized in particular for improving corresponding, already existing products.
  • the method thus has the advantage that such a brainstorming process can be carried out within a few days and thus meets the demand for short development periods.
  • a.) The period of automatic analysis of the patent documents by the computer and b.) The period of automatic selection of the patent documents are extremely shortened, in particular by a suitable combination of the text classification with the image classification.
  • the results of said two stages are linked with the Boolean operator "AND.”
  • AND Boolean operator
  • the method is expected to be carried out only once, it is particularly advantageous according to a further embodiment, when initially one of the two stages of patent documents to be examined is run through, and then only pass through the other of the two stages selected patent documents. In this way, not all patent documents need to go through both stages, saving time and computing capacity. Since the second stage relates to the graphics evaluation and is likely to be more time-consuming than the first stage, it is particularly advantageous if the first stage, which concerns the text classification, is carried out in chronological order.
  • patent documents are first analyzed on the basis of their patent texts by means of the text classification and subjected to a selection, and then only the patent graphics of the selected patent documents are analyzed by the image classification and subjected to a further selection.
  • the second stage is only traversed by the patent graphics of the patent documents selected to be relevant in the first stage according to their patent texts, thereby saving considerable computing capacity and time.
  • a basic set may include 10,000 to 20,000 patent documents to be examined.
  • the selection of the first stage may be, for example, about 5% -10% of the patent documents, ie, for example, 1000 documents, so that in the particularly compute-intensive second stage, only these 1000 patent documents, i. by means of the image classification whose patent graphics must be examined, whereby in the second stage e.g. 90% - 95% of the computational effort can be saved.
  • the classifiers i. the text and image classifier, formed as follows:
  • Preference is given to a so-called "training" of a classifier, in particular of the text classifier, with manually selected training programs.
  • the corresponding classification function in particular the text classification function.
  • thematically relevant patent documents e.g. determined from a public database as training documents.
  • a relevant search criteria can be used.
  • a technical function e.g. "Sawing”, “Screwing”, Welding ", achieved a much better hit rate over corresponding devices, such as” saw “,” screw “,” welding device ".
  • suitable patent documents can then be selected as training documents in the form of a manual final selection with little manual effort.
  • particularly relevant patent documents can be identified as relevant and used as training documents for training the text classifier.
  • non-relevant patent documents can also be identified as irrelevant and also used as training documents for training the text classifier.
  • The% 2 method generally determines the independence of two variables - and in the present case the dependence of one variable Characteristic for a category - in this case relevant / not relevant - determined. The% 2 method is therefore particularly well suited to finding the most meaningful features.
  • ⁇ 2 can be determined as follows:
  • N total number of documents in the corresponding training amount.
  • the dependencies of all characteristics used can be calculated for all categories used and then averaged.
  • the features can now be ranked for each category.
  • the use of the ⁇ 2 method also has the advantage that this already normalizes to the interval [0,1], which makes the results comparable.
  • the image classification may use a formal feature, in particular the complexity of the patent drawings, as a selection criterion. This is particularly advantageous for several reasons:
  • a corresponding image classification function after a single creation can be used for all such methods, and thus can be regarded as generally prescribed for such methods independently of the respective topic of the idea generation project.
  • Training the image classifier in this case only needs to take place once. For this, a set of training documents with manually selected, complex and less complex graphics is assembled once, whereby the individual graphics for training the image classifier are marked as complex or less complex. Then the image classifier can be calculated once, eg with the said% 2 method.
  • this criterion of the complexity of the graphics for the natural persons so for example developers, designers, potential inventors, amateurs interested, etc., also particularly advantageous in the interpretation, since in particular the manual recognition by the selection of less complex graphics significantly improved and thus significantly reduces the manual intellectual effort involved in combining the elements contained therein.
  • the complexity of the graphics can be determined, for example, by the ratio of their lines to the total area of the graphic. It is advantageously to be considered that patent drawings are basically line drawings, and that the strength of the lines is comparable among a large number of suitable patent documents.
  • the length and / or area of the lines may be set in proportion to the size, ie, diagonal or area, of the overall graphic. In particular, the number of corresponding pixels can be used.
  • patent graphics in which the proportion of lines on the overall graphic is below a certain predetermined value can be considered to be less complex.
  • Patent graphics in which the proportion of lines in the overall graphic is greater than the predetermined value can be considered complex.
  • the said predetermined value can, in an advantageous embodiment, also be determined on the basis of the entire image material to be examined, e.g. be determined as the mean. Then automatically the least complex graphics in relation to the whole are selected.
  • the value can also be fixed by the method independently of the image material to be examined.
  • this value for example based on the ratio of the areas, may be relatively small and may be 0.01% or 0.05% or 0.1%, but it may also be 0.25% or 0.5%, 1% or 2.5% or even at 5% or 7.5% or 10% or more, eg 15% or 20% or even more, eg 25%, 30%, 35% or even 40% % lie.
  • This value can also be used to set absolutely absolute, how complex the image material may be in order to be part of the selection.
  • the image classification can use the complexity of the patent graphics as a selection criterion by selecting those patent documents in the patent graphics of which the ratio of lines to the total area of the graphic is less than those patent documents which are not selected.
  • the image classifier can be generated by a selection of content-relevant and non-relevant and appropriately marked training documents. This may be useful if the images of relevant documents have significant similarities, which may be, e.g. refer in particular to the topic focus of the brainstorming project according to the IPC and / or CPC classification or comparable further classifications.
  • the image classifier also has content-related components in a particularly advantageous embodiment, ie searches for specific geometric shapes, eg special so-called "mating faces", locking devices, circuit arrangements and associated symbols, etc., and selects corresponding patent documents the image analysis in an advantageous embodiment, for example, pattern recognition and / or pattern analysis method include.
  • a first approach is to use patent documents of various such sections, in particular IPC or CPC sections, separately in the training phase as training documents so as to obtain a separate text classifier for each section.
  • patent documents of the various sections can be selected with a respective section-specific text classifier.
  • the text classifier can naturally also have a stronger content component, and the image classifier can preferably evaluate formal criteria, such as the said complexity.
  • FIG. 2 shows a more detailed sequence of the two-stage selection phase
  • 3 is a process diagram of an associated training phase
  • Fig. 4 shows a flow of an entire idea generation process
  • 5 a shows a classification of patent documents of different sections by means of a plurality of section-specific classifiers
  • Fig. 5 b is a classification of patent documents of different sections by means of a common classifier.
  • FIG. 1 shows a basic, roughly simplified procedure of a two-stage patent classification in a so-called “selection phase.”
  • selection phase serves to distinguish from a so-called “training phase”, which otherwise resembles the procedure, and means that those determined in the selection phase , relevant patent graphics represent a regular result that can later be spent on brainstorming by natural persons, such as developers, designers, professionals, interested lay people, etc.
  • a first stage comprising a text classifier 3
  • a second stage comprising an icon classifier 7, is selected only from the patent documents selected in the first stage Analysis of related patent graphics 6 go through.
  • the basic set 1 could theoretically consist of hundreds of thousands or even millions of patent documents. Since, however, only about 100 relevant patent graphics 23 are required for the brainstorming method, a significantly lower basic quantity 1 of, for example, 5,000 to 10,000 documents may be sufficient.
  • thematic preselection for example by means of a keyword search and / or by a rough restriction of the IPC / CPC sections or associated patent classes, may have already taken place. This is particularly advantageous because the timely avoidance of completely irrelevant subject complexes saves a great deal of computing power, which makes the method much more efficient.
  • the patent texts 2 of the patent documents of the base set 1 are selected with a text classifier 3 having a text classification function ⁇ .
  • a first subset 4 of textually relevant patent documents is selected from the basic quantity 1.
  • the patent graphics 6 belonging to the patent documents of the first subset 4 are then compiled.
  • the patent documents of the first subset 4 are now by a second classification, namely an image classification with a Schmklassifi- 7, comprising an image classification function ⁇ , in turn divided into two more so-called "categories", namely in a second subset 8 and in a further residual amount
  • the second subset 8 now comprises those patent documents which are suitable both for their textual content and according to their patent graphics for manual analysis, combination and / or brainstorming ..
  • these patent documents are also considered to be relevant documents and their graphics as relevant Patent graphics or also referred to as relevant patent images 23.
  • the remaining quantity 9, formed from the patent documents of the first subset 4 which are not relevant according to their graphics, is no longer considered in the present process.
  • FIG. 2 shows a somewhat more detailed process diagram of the selection phase in the two-stage process.
  • the patent texts 2 of the basic set for example in the usual XML format, read.
  • this takes the form of full texts, comprehensive send the so-called “abstract”, ie the abstract, furthermore the so-called “state of the art”, the so-called “patent description”, the so-called “exemplary embodiment” as well as the so-called “claims.”
  • preference may be given to the text section which is the prior art
  • the reading-in of the claims can advantageously also be dispensed with because they have increasingly juristically embossed formulations and terms which, according to experience, are less well suited for the generation of ideas
  • the text format enables this distinction, ie, identifies the different text sections accordingly.
  • the frequency of the respective features can be used absolutely or normalized and, in particular, also be compared with their total frequency in the basic quantity 1.
  • these weighted features can be analyzed and evaluated in the fourth step 14 by applying the text classification function ⁇ .
  • the Boolean model also known as "keyword search” is based on the approach of searching text documents for the presence or absence of keywords, searching for words using a single word, resulting in a set of documents containing these keywords
  • the search terms can be combined by the logical operators "AND”, “OR” and “NOT”. A ranking of the result set is not possible.
  • the vector space model is based on the fact that both the search query and the documents of the result set are mapped as vectors in a high-dimensional space.
  • the vectors of the request and each result is compared with each other. The more similar these vectors are, the more highly the relevancy of the particular document of the result set for the response to the query is estimated. This results in a ranking of the documents in the result set.
  • the so-called "Support Vector Machine" can be used.
  • the probabilistic model is based on probability values.
  • the biggest challenge in information retrieval in texts is the vagueness of the language, so there is no absolute assurance that a document is relevant to a request, so probabilities of relevance to documents are calculated Relevance is given as a similarity value The similarity here depends on the frequency of the search terms in the document The higher the calculated probability, the more relevant the document is estimated for the query.
  • the probability-based classification method for example, the so-called "Naive-Bayes classification method" use Find.
  • the patent documents can be assigned to a category by applying the text classification function ⁇ to their patent texts 2 in the fifth step 15 by the fourth step 14.
  • the category is in particular the first subset 4 described above and shown in FIG.
  • the associated patent graphics 6 are compiled in the seventh step 17.
  • these patent graphics 6 are read, for example as PNG files or in any other graphic format.
  • the graphics of the textually irrelevant patent documents of the remaining quantity 5 are not read. This avoids the import of content-irrelevant graphics and thus leads to a lean and resource-saving process.
  • image mining can use digital images, e.g. the patent graphics 6 of the patent documents of the first subset 4, are sought in a targeted manner according to predetermined criteria. This is based on content-based image retrieval, the so-called “content based image retrieval.”
  • the content of an image is analyzed by a software algorithm, such as color, outlines, and textures, which can be used to extract features from the image as well as
  • a software algorithm such as color, outlines, and textures
  • the patent graphics in the twelfth step 22 can be assigned to different categories 8, 9.
  • a binary classification takes place, ie the graphics are divided according to a yes / no decision between two different categories, namely between the second subset 8 and the associated further residual set 9.
  • the second subset 8 then comprises the relevant patent documents, including the relevant ones Patentbil- 23, which are suitable for manual combination / analysis / brainstorming by natural persons.
  • the text classification function y and the image classification function ⁇ must first be calculated.
  • training documents For this purpose, in this case the text classifier 3, first of all manually selected content documents are selected, which are referred to below as training documents. These training documents should not be part of the basic quantity 1 in order not to falsify the result by a so-called "overtraining.” For example, these training documents can first be searched for with keywords in a public patent database, for example, and then selected manually. Thus, for example, about 250-500 documents are used as relevant training documents in this way Furthermore, a large number of non-relevant training documents are selected and selected in about the same number, ie also at least 100, preferably 250-500 documents These manually selected relevant and non-relevant training documents used in the following as training documents.
  • the texts belonging to these training documents are read into the computer and thereby marked as relevant or not relevant.
  • an extraction of features from these training documents takes place analogously to the second step 12 of the selection phase described above.
  • the ⁇ 2 method known to the person skilled in the art and already described in detail above can be used as a simplified approach for the probabilistic model on the basis of frequency values instead of probabilities.
  • The% 2 method can be used for feature extraction 12, 12 ' , 19, 19 ' in both the training and selection phases for both text and image analysis. Furthermore, the ⁇ 2 - method for calculating 30, 31 of the classification functions
  • ⁇ , ⁇ can be used.
  • the feature weighting 13 ' takes place analogously to the feature weighting 13 of the selection phase.
  • the frequency of occurrence of particular identifiers can be evaluated and can furthermore be set in relation to the total frequency of these identifiers.
  • the text classification function ⁇ is calculated.
  • the relevance of individual weighted features can be used, for example, with the ⁇ 2 method described above, in order to select the most relevant features based on the searched content.
  • the training of the image classifier 7 is substantially analogous to the aforementioned training of the text classifier 3.
  • a suitable number> 100 e.g. between 250 and 500 relevant graphic documents manually selected as training documents according to their characteristics. These documents should preferably not belong to the patent documents of the base set 1 and in particular not to the first subset 4, so as not to falsify the result by said overtraining.
  • the features are extracted by means of the abovementioned "image minimizing” and weighted in the third step 20 ', eg using the ⁇ 2 method, in order to be able to calculate the classification function ⁇ in the fourth step 21 ' .
  • a fixed value can be defined as a criterion, for example the ratio in the graph of recognized lines, eg their total length or their area, eg number of pixels, to the overall dimension of the graphic, eg their diagonal or area, eg number of their pixels.
  • the complexity of the searched relevant patent graphics is then manually adjustable.
  • FIG. 4 exemplifies a possible overall sequence of a method for brainstorming.
  • An image classifier 7 is trained by the automatic feature extraction 19 ' from these training documents.
  • a predefined image classifier 7 can also be used, in which, in particular, a formal and therefore cross-subject criterion, for example the complexity of the images, is used as a selection criterion.
  • the image classifier 7 is applied to the patent graphics 6 of the first subset 4 so as to produce a second subset 8.
  • Fig. 5 illustrates the difference between the selection by means of the section-specific text classification functions Yi, 2, 3 shown in Fig. 5a and the non-section-specific text classification function y shown in Fig. 5b.
  • Subdivision quantities 4 ' , 4 " , 4 “' are then respectively generated from the relevant patent documents determined in each case. These subset quantities 4 ' , 4 " , 4 “' can then be combined again into the first subset 4.
  • the non-relevant patent documents are supplied according to the associated residual amounts 5 ' , 5 " , 5 “' , which are no longer considered for the process.
  • FIG. 5b shows how the patent documents of the three different IPC sections S1, S2, S3 are selected via a single common text classifier 3 for generating the first subset 4.

Abstract

In order to develop and improve products, in particular in the technical construction domain, a two-stage method for determining relevant patent documents is proposed, wherein natural persons are prompted to find ideas via the combination of the associated patent graphics (23). For the automatic selection of the patent documents, a text classification in a first stage and an image classification in a second stage are applied to a previously compiled basic quantity (1) of patent documents, wherein the associated text- (3) and image classifiers (7) can be trained beforehand. In particular, the text classifier (3) can have a focus on content. The image classifier (7) can have a strong formal character, and relate in particular to the complexity of the patent graphics (23) to be determined.

Description

Verfahren zur Ideenfindung  Method for brainstorming
Beschreibung description
Die Erfindung geht aus von einem Verfahren zur Ideenfindung nach dem Oberbegriff des unabhängigen Anspruchs 1 . The invention is based on a method for brainstorming according to the preamble of independent claim 1.
Derartige Verfahren können insbesondere im industriellen Umfeld verwendet werden, um Ideen zur Entwicklung und Verbesserung von Produkten zu gewinnen. Insbesondere betrifft die Erfindung das Generieren von Innovationen im Bereich der technischen Konstruktion. Such methods can be used especially in the industrial environment to gain ideas for the development and improvement of products. In particular, the invention relates to the generation of innovations in the field of engineering design.
Stand der Technik State of the art
Es ist beispielsweise aus der Druckschrift US 5,774,833 A bekannt, Texte und Bilder aus der Patentliteratur in einem Computer mit semantischen Methoden zu untersuchen. For example, it is known from the document US Pat. No. 5,774,833 A to examine texts and images from patent literature in a computer using semantic methods.
Die Druckschrift WO 2008/156507A1 beschreibt eine Methode zur automatischen Patentbewertung durch ein Computerprogramm. The document WO 2008 / 156507A1 describes a method for automatic patent evaluation by a computer program.
Zur Steigerung der Wettbewerbsfähigkeit sind weiterhin in vielen Unternehmen interne Prozesse zur Entwicklung innovativer Produkte etabliert. In order to increase competitiveness, internal processes for the development of innovative products continue to be established in many companies.
So beschreibt die Druckschrift US 2012/0054281 A1 ein Verfahren zur Verbesserung der Leistung der gemeinschaftlichen Gruppeninnovation durch Teambildung in einer virtuellen Umgebung. Thus, document US 2012/0054281 A1 describes a method for improving the performance of collaborative group innovation by team building in a virtual environment.
Die Druckschrift US 5,774,833 A beschreibt eine Methode zur syntaktischen und semantischen Analyse von Patenttexten und Zeichnungen. Aus der Druckschrift FINZEN, Jan; KASPER, Harriet; KINTZ, Maximi- lien: INNOVATION MINING, Effektive Recherche unternehmensstrategisch relevanter Informationen im Internet. In: ISBN: 978-3-8396-0139- 6, Veröffentlichungsjahr 2010, ist insbesondere auf den Seiten 47 bis 54 die Verwendung von Patentdatenbanken zur Informationsgewinnung bekannt. The document US 5,774,833 A describes a method for the syntactic and semantic analysis of patent texts and drawings. From the publication FINZEN, Jan; KASPER, Harriet; KINTZ, Maximilien: INNOVATION MINING, Effective research on corporate strategically relevant information on the Internet. In: ISBN: 978-3-8396-0139-6, publication year 2010, in particular on pages 47 to 54 the use of patent databases for obtaining information is known.
Die Druckschrift US 2015/0121 185 A1 offenbart ein Computerimplementiertes Verfahren zur Anzeige einer graphischen Darstellung einer Klassifikation einer Menge von Patentanmeldungen in mehrere Kategorien entsprechend einem Attribut. Document US 2015/0121185 A1 discloses a computer-implemented method for displaying a graphical representation of a classification of a set of patent applications into several categories according to an attribute.
Aus der Druckschrift„Ein methodischer Weg zu innovativen Technologien" (Autor Spies, K., Verlag der Augustinus Buchhandlung, Aachen, 1996) ist es bekannt, Konstrukteuren/-innen ausgewählte Bilder aus Patenten technischer Produkte zu präsentieren, um es ihnen dadurch zu ermöglichen, die dort dargestellten technischen Prinzipien durch Umstrukturierung und/oder Übertragung auf andere Anwendungen zu neuen Ideen zu kombinieren. Diese Vorgehensweise hat sich insbesondere im Bergbau, im Maschinenbau und in der Bauindustrie, also in Bereichen der technischen Konstruktion, als besonders vorteilhaft erwiesen. Dabei wird insbesondere offenbart, dass die ausgestellten Patentzeichnungen nicht nur aus dem jeweiligen Aufgabengebiet, z.B. der IPC- (internationalen Patentklassifikation) Sektion/Klasse/Unterklasse/ etc. stammen, sondern stattdessen ein möglichst breites thematisches Feld abdecken sollen. From the document "A methodical way to innovative technologies" (author Spies, K., publishing house of the Augustinus bookshop, Aachen, 1996) it is well-known, designers to present selected pictures from patents of technical products, in order thereby to make it possible for them To combine the technical principles presented there by restructuring and / or transfer to other applications to new ideas.This approach has proved particularly advantageous in mining, mechanical engineering and in the construction industry, ie in areas of engineering design In particular, it discloses that the issued patent drawings not only come from the respective area of responsibility, eg the IPC (International Patent Classification) section / class / subclass / etc., but instead cover the widest possible thematic field.
Die Druckschrift ESSER, Daniel: Selbstlernende Typklassifikation von Dokumenten für Information Retrieval im Dokument Management. In: Großer Beleg, Technischen Universität Dresden, eingereicht am 10.09.2010, S. 1 - 131 beschreibt ein System zur Typenklassifikation mittels semantischer Analyse. The publication ESSER, Daniel: Self-Learning Type Classification of Documents for Information Retrieval in Document Management. In: Large document, Dresden University of Technology, submitted to 10.09.2010, pp. 1 - 131 describes a system for classifying types by means of semantic analysis.
Nachteilig in diesem Stand der Technik ist, dass die Verfahren zur Innovationsgenenerung insbesondere für den Bereich der klein- und mitteständischen Unternehmen oft zu aufwendig sind und weiterhin vor dem Hintergrund immer kürzer werdender Produktlebenszyklen einen unerwünscht großen Zeitraum in Anspruch nehmen. A disadvantage of this prior art is that the processes for innovation generation, especially in the field of small and medium-sized companies are often too expensive and continue to take against the background of ever-shorter product life cycles an undesirably large period of time.
Aufgabenstellung task
Die Aufgabe der Erfindung besteht daher darin, ein kostengünstiges und zeitsparendes Verfahren zur Innovationsgenerierung, insbesondere unter Verwendung einer themenbasierten Patentauswahl aus unterschiedlichen technologischen Anwendungsbereichen, zu entwickeln. The object of the invention is therefore to develop a cost-effective and time-saving method for innovation generation, in particular using a topic-based selection of patents from different technological fields of application.
Insbesondere soll für eine Menge zu sichtender Patentdokumente das Verhältnis einer Anzahl nützlicher Patentdokumente zu einer Gesamtzahl der Patentdokumente bei geringstmöglichem Zeit- und Rechenaufwand optimiert werden. In particular, for a set of patent documents to be viewed, the ratio of a number of useful patent documents to a total number of patent documents should be optimized with the least possible time and computation.
Die Aufgabe wird mit einem Verfahren der eingangs erwähnten Art durch die Merkmale des kennzeichnenden Teils des unabhängigen Anspruchs 1 gelöst. The object is achieved by a method of the type mentioned by the features of the characterizing part of the independent claim 1.
Das Verfahren zur Ideenfindung weist folgende Schritte auf: a. ) automatische Analyse von Patentdokumenten, umfassend Patenttexte und Patentgrafiken, durch einen Computer; b. ) automatische Auswahl relevanter Patentdokumente durch den Computer; c.) Darstellung der Patentgrafiken der ausgewählten Patentdokumente; d.) Betrachten und kombinieren von in den dargestellten Patentgrafiken enthaltenen Merkmalen zum Generieren neuer Ideen durch natürliche Personen; wobei zur Auswahl der Patentdokumente in Verfahrensschritt b.) in einer ersten Stufe eine Textklassifikation mit einem Textklassifikator, aufweisend eine Textklassifikationsfunktion, und in einer zweiten Stufe eine Bildklassifikation mit einem Bildklassifikator, aufweisend eine Bildklassifikationsfunktion, durchlaufen werden. The brainstorming process includes the following steps: a. ) automatic analysis of patent documents, including patent texts and patent graphics, by a computer; b. ) automatic selection of relevant patent documents by the computer; c.) representation of the patent graphics of the selected patent documents; d.) viewing and combining features contained in the illustrated patent graphics to generate new ideas by natural persons; wherein for the selection of the patent documents in step b.) in a first stage a text classification with a text classifier having a text classification function, and in a second stage an image classification with an image classifier having an image classification function, are traversed.
Vorteilhafterweise kann zur Durchführung des Verfahrens, insbesondere der Schritte a.) und b.), von dem Computer ein in einem dazugehörigen Speicher abgelegtes Programm von einem oder mehreren ebenfalls zum Computer gehörenden Prozessoren, insbesondere einem oder mehreren Mikroprozessoren, ausgeführt werden. Advantageously, in order to carry out the method, in particular steps a.) And b.), The computer executes a program stored in a corresponding memory of one or more processors likewise belonging to the computer, in particular one or more microprocessors.
Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben. Advantageous embodiments of the invention are specified in the subclaims.
Bei dem Verfahren handelt es sich um eine Methode, schnell und preisgünstig Produktideen, insbesondere im Bereich der technischen Konstruktion, zu entwickeln. Weiterhin ist das Verfahren insbesondere zur Verbesserung entsprechender, bereits bestehender Produkte optimiert. The process is a method of quickly and inexpensively developing product ideas, particularly in the field of engineering design. Furthermore, the method is optimized in particular for improving corresponding, already existing products.
Das Verfahren hat den Vorteil, dass auch klein- und mittelständische Unternehmen in ihrer Ideenfindungsphase unterstützt werden, weil dazu lediglich eine kostenfrei oder zumindest sehr kostengünstig erhältliche Grundmenge an Patentdokumenten benötigt wird und weil das Ver- fahren weiterhin mit nur geringem finanziellem und zeitlichem Aufwand sowie mit vergleichsweise geringem Rechenaufwand verbunden ist. The advantage of the process is that even small and medium-sized enterprises are supported in their brainstorming phase because only a basic amount of patent documents available free of charge or at least very cheaply is needed and because the continue to be connected with only a small financial and time expenditure and with comparatively little computational effort.
Das Verfahren hat somit den Vorteil, dass ein solcher Ideenfindungs- prozess innerhalb weniger Tage durchgeführt werden kann und somit den gefordert kurzen Entwicklungszeiträumen gerecht wird. Insbesondere wird a.) der Zeitraum der automatischen Analyse der Patentdokumente durch den Computer sowie b.) der Zeitraum der automatischen Auswahl der Patentdokumente insbesondere durch eine geeignete Kombination der Textklassifikation mit der Bildklassifikation extrem verkürzt. The method thus has the advantage that such a brainstorming process can be carried out within a few days and thus meets the demand for short development periods. In particular, a.) The period of automatic analysis of the patent documents by the computer and b.) The period of automatic selection of the patent documents are extremely shortened, in particular by a suitable combination of the text classification with the image classification.
In einer vorteilhaften Ausgestaltung werden die Ergebnisse der besagten beiden Stufen mit dem booleschen Operator„UND" verknüpft. Dies kann zeitsparend sein, wenn zumindest Teile des Verfahrens, beispielsweise zu Testzwecken, mehrfach durchgeführt werden oder wenn bereits in den Computer eingelesene Dokumente in verschiedenen Analysen mehrfach mit demselben Klassifikator ausgewählt werden. Beispielsweise kann das Ergebnis der Klassifizierung, z.B. der Bildklassifizierung, dann auch als Klassifikationsfunktion zur jeweiligen Dokumentenmenge gespeichert werden oder die Dokumente können beispielsweise mit einem entsprechenden Attribut versehen werden. In an advantageous embodiment, the results of said two stages are linked with the Boolean operator "AND." This can be time-saving if at least parts of the method are repeatedly performed, for example for test purposes, or if documents already read into the computer repeatedly in different analyzes For example, the result of the classification, for example the image classification, can then also be stored as a classification function for the respective document quantity or the documents can for example be provided with a corresponding attribute.
Soll das Verfahren voraussichtlich nur einmalig durchgeführt werden, ist es gemäß einer weiteren Ausgestaltung besonders vorteilhaft, wenn zunächst eine der beiden Stufen von zu untersuchenden Patendokumenten durchlaufen wird, und lediglich die dabei ausgewählten Patentdokumente daraufhin die jeweils andere der beiden Stufen durchlaufen. Auf diese Weise brauchen nicht sämtliche Patentdokumente beide Stufen zu durchlaufen, wodurch Zeit und Rechenkapazität gespart wird. Da die zweite Stufe die Grafikauswertung betrifft und voraussichtlich zeitaufwendiger ist als die erste Stufe, ist es dabei besonders vorteilhaft, wenn in der zeitlichen Abfolge zunächst die erste Stufe, welche die Textklassifikation betrifft, durchgeführt wird. If the method is expected to be carried out only once, it is particularly advantageous according to a further embodiment, when initially one of the two stages of patent documents to be examined is run through, and then only pass through the other of the two stages selected patent documents. In this way, not all patent documents need to go through both stages, saving time and computing capacity. Since the second stage relates to the graphics evaluation and is likely to be more time-consuming than the first stage, it is particularly advantageous if the first stage, which concerns the text classification, is carried out in chronological order.
Somit ist es also besonders vorteilhaft, wenn zunächst Patentdokumente anhand ihrer Patenttexte mittels der Textklassifikation analysiert und einer Auswahl unterzogen werden, und wenn daraufhin lediglich die Patentgrafiken der dabei ausgewählten Patentdokumente mittels der Bildklassifikation ihrerseits analysiert und einer weiteren Auswahl unterzogen werden. Thus, it is thus particularly advantageous if patent documents are first analyzed on the basis of their patent texts by means of the text classification and subjected to a selection, and then only the patent graphics of the selected patent documents are analyzed by the image classification and subjected to a further selection.
Somit wird nämlich die zweite Stufe lediglich von den Patentgrafiken der in der ersten Stufe gemäß ihrer Patenttexte als relevant ausgewählten Patentdokumenten durchlaufen, wodurch erheblich Rechenkapazität und Zeit eingespart wird. Schließlich muss auf diese Weise nur ein Bruchteil der in der ersten Stufe zu analysierenden Patentdokumente die besonders rechenintensive zweite Stufe durchlaufen. Beispielsweise kann eine Grundmenge 10.000 bis 20.000 zu untersuchende Patentdokumente umfassen. In der Praxis kann es sich bei der Auswahl der ersten Stufe beispielsweise um ca. 5% - 10% der Patentdokumente handeln, also um beispielsweise 1000 Dokumente, so dass in der besonders rechenintensiven zweiten Stufe nur noch diese 1000 Patentdokumente, d.h. mittels der Bildklassifikation deren Patentgrafiken, untersucht werden müssen wodurch in der zweiten Stufe z.B. 90% - 95% des Rechenaufwands eingespart werden kann. Thus, the second stage is only traversed by the patent graphics of the patent documents selected to be relevant in the first stage according to their patent texts, thereby saving considerable computing capacity and time. Finally, in this way, only a fraction of the patent documents to be analyzed in the first stage must pass through the particularly compute-intensive second stage. For example, a basic set may include 10,000 to 20,000 patent documents to be examined. In practice, the selection of the first stage may be, for example, about 5% -10% of the patent documents, ie, for example, 1000 documents, so that in the particularly compute-intensive second stage, only these 1000 patent documents, i. by means of the image classification whose patent graphics must be examined, whereby in the second stage e.g. 90% - 95% of the computational effort can be saved.
Zur entsprechenden Auswahl werden die Klassifikatoren, d.h. der Text- und der Bildklassifikator, folgendermaßen gebildet: For appropriate selection, the classifiers, i. the text and image classifier, formed as follows:
Bevorzugt wird durch ein sogenanntes„Trainieren" eines Klassifikators, insbesondere des Textklassifikators, mit manuell ausgewählten Trai- ningsdokumenten die entsprechende Klassifikationsfunktion, insbesondere die Textklassifikationsfunktion, ermittelt. Preference is given to a so-called "training" of a classifier, in particular of the text classifier, with manually selected training programs. the corresponding classification function, in particular the text classification function.
In einer bevorzugten Ausführungsform werden daher zum Trainieren zumindest des Textklassifikators für das aktuelle Ideenfindungsprojekt thematisch relevante Patentdokumente z.B. aus einer öffentlichen Datenbank als Trainingsdokumente ermittelt. Dazu kann ein relevantes Recherchekriterium verwendet werden. In empirischen Versuchen hat sich dazu herausgestellt, dass dabei eine technische Funktion, z.B. „Sägen",„Schrauben", Schweißen", gegenüber entsprechenden Vorrichtungen, z.B.„Säge",„Schraube",„Schweißgerät", eine wesentlich bessere Trefferquote erzielt. In a preferred embodiment, therefore, to train at least the text classifier for the current brainstorming project, thematically relevant patent documents, e.g. determined from a public database as training documents. For this purpose, a relevant search criteria can be used. In empirical experiments it has been found that a technical function, e.g. "Sawing", "Screwing", Welding ", achieved a much better hit rate over corresponding devices, such as" saw "," screw "," welding device ".
Aus der Treffermenge können dann in Form einer händischen Endauswahl mit nur geringem manuellem Aufwand geeignete Patentdokumente als Trainingsdokumente ausgewählt werden. From the set of hits, suitable patent documents can then be selected as training documents in the form of a manual final selection with little manual effort.
In einer bevorzugten Ausgestaltung können somit besonders relevante Patentdokumente als relevant gekennzeichnet und als Trainingsdokumente zum Trainieren des Textklassifikators verwendet werden. In a preferred embodiment, therefore, particularly relevant patent documents can be identified as relevant and used as training documents for training the text classifier.
Weiterhin können auch nicht relevante Patentdokumente als nicht relevant gekennzeichnet und ebenfalls als Trainingsdokumente zum Trainieren des Textklassifikators verwendet werden. Furthermore, non-relevant patent documents can also be identified as irrelevant and also used as training documents for training the text classifier.
Dabei kann zur Merkmalsextraktion beispielsweise das dem Fachmann bekannte, sogenannte %2-Verfahren („Chi-Square-Verfahren") Verwendung finden, das im Folgenden näher beschrieben wird: In this case, for example, the so-called% 2 method ("Chi-Square method") known to the person skilled in the art, which is described in more detail below, can be used for feature extraction.
Mittels dem %2-Verfahren wird im Allgemeinen die Unabhängigkeit zweier Variablen - und im vorliegenden Fall die Abhängigkeit eines Merkmals zu einer Kategorie - in diesem Fall relevant/nichtrelevant - festgestellt. Das %2-Verfahren ist daher besonders gut dazu geeignet, die aussagekräftigsten Merkmale zu finden. χ2 kann dabei folgendermaßen bestimmt werden:
Figure imgf000009_0001
The% 2 method generally determines the independence of two variables - and in the present case the dependence of one variable Characteristic for a category - in this case relevant / not relevant - determined. The% 2 method is therefore particularly well suited to finding the most meaningful features. χ 2 can be determined as follows:
Figure imgf000009_0001
In dieser Formel bedeuten: In this formula mean:
A: Anzahl der Dokumente aus einer Kategorie c, die ein bestimmtes Merkmal m enthalten; A: number of documents from a category c that contain a specific feature m;
B: Anzahl der Dokumente, die nicht in der Kategorie c enthalten sind und, die das bestimmte Merkmal m enthalten; B: number of documents that are not included in category c and that contain the specific feature m;
C: Anzahl der Dokumente aus Kategorie c, die das Merkmal m nicht enthalten; C: number of documents from category c that do not contain the characteristic m;
D: Anzahl der Dokumente, die nicht in der Kategorie c enthalten sind und die das Merkmal m nicht enthalten; D: number of documents that are not in category c and that do not contain m;
N: Gesamtzahl der Dokumente in der dazugehörigen Trainingsmenge. N: total number of documents in the corresponding training amount.
Allgemein können die Abhängigkeiten aller verwendeten Merkmale zu allen verwendeten Kategorien berechnet und anschließend gemittelt werden. Die Merkmale können nun für jede Kategorie in eine Reihenfolge (Ranking) gebracht werden. Je abhängiger das Merkmal von dieser Kategorie ist, desto höher steht es im Ranking. Die Verwendung des χ2- Verfahrens hat weiterhin den Vorteil, dass dadurch bereits eine Normierung auf das Intervall [0,1 ] stattfindet, was die Ergebnisse vergleichbar macht. In general, the dependencies of all characteristics used can be calculated for all categories used and then averaged. The features can now be ranked for each category. The more dependent the characteristic of this category, the higher it stands in the ranking. The use of the χ 2 method also has the advantage that this already normalizes to the interval [0,1], which makes the results comparable.
In einer besonders bevorzugten Ausführungsform kann in der zweiten Stufe die Bildklassifikation ein formales Merkmal, insbesondere die Komplexheit der Patentzeichnungen, als Auswahlkriterium verwenden. Dies ist aus mehreren Gründen besonders vorteilhaft: In a particularly preferred embodiment, in the second stage, the image classification may use a formal feature, in particular the complexity of the patent drawings, as a selection criterion. This is particularly advantageous for several reasons:
Zum einen kann eine entsprechende Bildklassifikationsfunktion nach einmaliger Erstellung für sämtliche derartige Verfahren verwendet werden, kann also für derartige Verfahren unabhängig vom jeweiligen Thema des Ideenfindungsprojekts als allgemein vorgegeben angesehen werden. On the one hand, a corresponding image classification function after a single creation can be used for all such methods, and thus can be regarded as generally prescribed for such methods independently of the respective topic of the idea generation project.
Das Trainieren des Bildklassifikators braucht in diesem Fall nur einmalig stattzufinden. Dazu wird einmalig eine Gruppe von Trainingsdokumente mit manuell ausgewählten, komplexen und weniger komplexen Grafiken zusammengestellt, wobei die einzelnen Grafiken zum Trainieren des Bildklassifikators als komplex oder weniger komplex gekennzeichnet werden. Dann kann der Bildklassifikator einmalig, z.B. mit dem besagten %2-Verfahren, berechnet werden. Training the image classifier in this case only needs to take place once. For this, a set of training documents with manually selected, complex and less complex graphics is assembled once, whereby the individual graphics for training the image classifier are marked as complex or less complex. Then the image classifier can be calculated once, eg with the said% 2 method.
Zum anderen ist dieses Kriterium der Komplexheit der Grafiken für die natürlichen Personen, also beispielsweise Entwickler, Konstrukteure, potentielle Erfinder, Interessierte Laien, etc., auch bei der Interpretation besonders vorteilhaft, da sich insbesondere die manuelle Erkennbarkeit durch die Auswahl weniger komplexer Grafiken erheblich verbessert und so den manuellen intellektuellen Aufwand bei der Kombination der darin enthaltenen Elemente erheblich verringert. Die Komplexheit der Grafiken lässt sich beispielsweise durch das Verhältnis ihrer Linien zur Gesamtfläche der Grafik bestimmen. Dabei ist vorteilhafterweise zu berücksichtigen, dass es sich bei Patentzeichnungen grundsätzlich um Strichzeichnungen handelt, und dass die Stärke der Linien bei einer Vielzahl geeigneter Patentdokumente untereinander vergleichbar ist. Beispielsweise kann die Länge und/oder Fläche der Linien ins Verhältnis zur Größe, d.h. Diagonale oder Fläche, der Gesamtgrafik gesetzt werden. Insbesondere kann dabei die Zahl der entsprechenden Pixel verwendet werden. On the other hand, this criterion of the complexity of the graphics for the natural persons, so for example developers, designers, potential inventors, amateurs interested, etc., also particularly advantageous in the interpretation, since in particular the manual recognition by the selection of less complex graphics significantly improved and thus significantly reduces the manual intellectual effort involved in combining the elements contained therein. The complexity of the graphics can be determined, for example, by the ratio of their lines to the total area of the graphic. It is advantageously to be considered that patent drawings are basically line drawings, and that the strength of the lines is comparable among a large number of suitable patent documents. For example, the length and / or area of the lines may be set in proportion to the size, ie, diagonal or area, of the overall graphic. In particular, the number of corresponding pixels can be used.
Somit kann der Anteil der Linien von aktuellen Analysewerkzeugen, also z.B. Bildanalysesoftware, mit nur geringem Rechenaufwand gut erkannt und bewertet werden. Thus, the proportion of lines of current analysis tools, e.g. Image analysis software, easily recognized and evaluated with low computational effort.
Weiterhin können Patentgrafiken, bei denen der Anteil der Linien an der Gesamtgrafik unterhalb eines bestimmten vorgegebenen Wertes liegt, als wenig komplex angesehen werden. Patentgrafiken, bei denen der Anteil der Linien an der Gesamtgrafik größer ist als der vorgegebene Wert, können als komplex angesehen werden. Furthermore, patent graphics in which the proportion of lines on the overall graphic is below a certain predetermined value can be considered to be less complex. Patent graphics in which the proportion of lines in the overall graphic is greater than the predetermined value can be considered complex.
Der besagte vorgegebene Wert kann in einer vorteilhaften Ausgestaltung auch anhand des gesamten zu untersuchenden Bildmaterials z.B. als Mittelwert bestimmt werden. Dann werden automatisch die im Verhältnis zur Gesamtheit am wenigsten komplexen Grafiken ausgewählt. The said predetermined value can, in an advantageous embodiment, also be determined on the basis of the entire image material to be examined, e.g. be determined as the mean. Then automatically the least complex graphics in relation to the whole are selected.
Der Wert kann aber auch unabhängig vom zu untersuchenden Bildmaterial vom Verfahren fest vorgegeben sein. Beispielsweise kann dieser Wert, z.B. bezogen auf das Verhältnis der Flächen, relativ klein sein und kann bei 0,01 % oder 0,05% oder 0,1 % liegen, er kann aber auch bei 0,25% oder 0,5%, 1 % oder 2,5% oder aber auch bei 5% oder 7,5% oder 10% oder mehr betragen, also z.B. bei 15% oder 20% oder noch darüber, z.B. bei 25%, 30%, 35% oder gar 40% liegen. Über diesen Wert kann vorteilhafterweise auch absolut eingestellt werden, wie komplex das Bildmaterial sein darf, um noch zur Auswahl zu gehören. The value can also be fixed by the method independently of the image material to be examined. For example, this value, for example based on the ratio of the areas, may be relatively small and may be 0.01% or 0.05% or 0.1%, but it may also be 0.25% or 0.5%, 1% or 2.5% or even at 5% or 7.5% or 10% or more, eg 15% or 20% or even more, eg 25%, 30%, 35% or even 40% % lie. This value can also be used to set absolutely absolute, how complex the image material may be in order to be part of the selection.
Somit kann die Bildklassifikation die Komplexheit der Patentgrafiken als Auswahlkriterium verwenden, indem diejenigen Patentdokumente ausgewählt werden, in deren Patentgrafiken das Verhältnis von Linien zur Gesamtfläche der Grafik geringer ist als bei denjenigen Patentdokumenten, die nicht ausgewählt werden. Thus, the image classification can use the complexity of the patent graphics as a selection criterion by selecting those patent documents in the patent graphics of which the ratio of lines to the total area of the graphic is less than those patent documents which are not selected.
Auf diese Weise können die weniger komplexen Patentgrafiken automatisch gemäß einem vorgegebenen Kriterium mit nur geringem Rechenaufwand ausgewählt werden. In this way, the less complex patent graphics can be automatically selected according to a predetermined criterion with little computational effort.
In einer weiteren vorteilhaften Ausbildung kann auch der Bildklassifikator, analog zum Textklassifikator, durch eine Auswahl von inhaltlich relevanten und nicht relevanten und entsprechend gekennzeichneten Trainingsdokumenten erzeugt werden. Dies kann sinnvoll sein, wenn die Bilder relevanter Dokumente markante Gemeinsamkeiten aufweisen, die sich, z.B. gemäß der IPC und/oder CPC-Klassifikation oder vergleichbaren weiteren Klassifikationen insbesondere auch Sektionsübergreifend auf den Themenschwerpunkt des Ideenfindungsprojekts beziehen. In a further advantageous embodiment, the image classifier, analogous to the text classifier, can be generated by a selection of content-relevant and non-relevant and appropriately marked training documents. This may be useful if the images of relevant documents have significant similarities, which may be, e.g. refer in particular to the topic focus of the brainstorming project according to the IPC and / or CPC classification or comparable further classifications.
Es ist somit möglich, dass auch der Bildklassifikator in einer besonders vorteilhaften Ausgestaltung ebenfalls inhaltliche Komponenten besitzt, also beispielsweise nach bestimmten geometrischen Formen, z.B. speziellen sogenannten„Steckgesichtern", Verriegelungsvorrichtungen, Schaltungsanordnungen und dazugehörigen Symbolen, etc. sucht und entsprechende Patentdokumente auswählt. Somit kann die Bildanalyse in einer vorteilhaften Ausgestaltung beispielsweise auch Mustererken- nungs- und/oder Musteranalyseverfahren beinhalten. It is thus possible that the image classifier also has content-related components in a particularly advantageous embodiment, ie searches for specific geometric shapes, eg special so-called "mating faces", locking devices, circuit arrangements and associated symbols, etc., and selects corresponding patent documents the image analysis in an advantageous embodiment, for example, pattern recognition and / or pattern analysis method include.
Zum Trainieren und Anwenden des Textklassifikators/der Textklassifikatoren gibt es mehrere Möglichkeiten: There are several ways to train and apply the text classifier / classifiers:
Ein erster Ansatz besteht darin, Patentdokumente verschiedener derartiger Sektionen, insbesondere IPC oder CPC-Sektionen, in der Trainingsphase getrennt voneinander als Trainingsdokumente zu verwenden, um so für jede Sektion einen eigenen Textklassifikator zu erhalten. In der drauf folgenden Auswahlphase können dann Patentdokumente der verschiedenen Sektionen mit einem jeweils dazugehörigen sektionsspezifischen Textklassifikator ausgewählt werden. A first approach is to use patent documents of various such sections, in particular IPC or CPC sections, separately in the training phase as training documents so as to obtain a separate text classifier for each section. In the subsequent selection phase then patent documents of the various sections can be selected with a respective section-specific text classifier.
Dies bedeutet zwar einen erheblich höheren Konfigurations- und Rechenaufwand, doch es erscheint zunächst durchaus nachvollziehbar, dass sich beispielsweise die sogenannte„Precision", welche das Verhältnis Anzahl relevanter Dokumente/Anzahl gefundener Dokumente angibt, also in einfachen Worten„die Treffsicherheit" des jeweiligen Klassifikators angibt, zumindest aufgrund der einheitlichen Wortbedeutungen innerhalb einer Sektion dadurch signifikant verbessern müsste. Although this means a much higher configuration and computational effort, but it seems at first quite understandable that, for example, the so-called "Precision", which specifies the ratio of number of relevant documents / number of documents found, so in simple words "the accuracy" of each classifier indicates that, at least because of the uniform meanings of words within a section, this would have to significantly improve.
Erstaunlicherweise wurde diese These zumindest durch die durchgeführten Versuchsreihen nicht bestätigt. Es konnte also zumindest bei den durchgeführten Untersuchungen kein nennenswerter Einfluss durch die Verwendung I PC-sektionsspezifischer Textklassifikatoren gefunden werden. Surprisingly, this thesis was not confirmed at least by the test series carried out. Thus, at least in the investigations carried out, no appreciable influence could be found by the use of PC-section-specific text classifiers.
Als besonders vorteilhaft für die Verringerung des manuellen Aufwands und/oder des insgesamt erheblichen Rechenaufwandes hat es sich daher herausgestellt, einen alternativen Ansatz zu verfolgen, der darin besteht, in der ersten Stufe, d.h. bei der Textklassifikation, Patentdo- kumente aus verschiedenen IPC-/CPC- oder ggf. auch aus weiteren Patenklassifikations-Sektionen mittels der gleichen Textklassifikationsfunktion auszuwählen. Mit anderen Worten kann ein einziger Klassifika- tor für Patentdokumente aus verschiedenen Sektionen, z.B. ICP-/PCP- Sektionen, verwendet werden, ohne dass sich dadurch das Ergebnis signifikant verschlechtert. Dadurch kann sowohl der manuelle Aufwand als auch der Rechenaufwand des Computers sowohl beim Konfigurieren des Systems als auch bei der eigentlichen regulären Patentdokumentauswahl erheblich reduziert werden. It has therefore proved to be particularly advantageous for reducing the manual effort and / or the overall considerable computational effort to pursue an alternative approach, which consists in the first stage, ie in the text classification, of patent law. Select documents from different IPC / CPC or possibly also from other Patenklassifikations sections using the same text classification function. In other words, a single classifier can be used for patent documents from different sections, eg ICP / PCP sections, without significantly degrading the result. As a result, both the manual effort and the computational cost of the computer can be significantly reduced both when configuring the system and during the actual regular choice of patent documents.
Für die Auswahlphase können beim Zusammenstellen der Grundmenge von Patentdokumenten aus einer Datenbank, z.B. aus einer öffentlichen Datenbank, beispielsweise mit dem Begriff„Verriegeln" nicht nur aus der IPC-Sektion H„Elektrotechnik" und Sektion F„Maschinenbau", sondern weiterhin auch in Sektion B„Arbeitsverfahren" und Sektion A „Täglicher Lebensbedarf" Patentdokumente zusammengestellt werden. Aus der so zusammengestellten Grundmenge können somit auch Sektionsübergreifend mit dem Text- und/oder mit dem Bildklassifikator relevante Dokumente ausgewählt werden. Dabei kann der Textklassifikator naturgemäß eine stärkere inhaltliche Komponente besitzen und der Bildklassifikator kann bevorzugt formale Kriterien, wie z.B. die besagte Komplexheit bewerten. For the selection phase, when assembling the basic set of patent documents from a database, e.g. from a public database, for example with the term "locking" not only from the IPC section H "electrical engineering" and section F "mechanical engineering", but also in section B "working methods" and section A "Daily life requirement" patent documents are compiled. Thus, the text classifier can naturally also have a stronger content component, and the image classifier can preferably evaluate formal criteria, such as the said complexity.
Die Darstellung der Patentgrafiken zum Betrachten und Kombinieren durch natürliche Personen, also z.B. Entwickler, Konstrukteure, Fachleute, Interessierte Laien, etc., beschränkt sich weiterhin keineswegs auf herkömmliche Ausstellungen in Form von Galerien, in welchen Ausdrucke der Grafiken konventionell ausgehängt werden können. In einer weiteren bevorzugten Ausgestaltung können diese Grafiken, beispielsweise über ein Netzwerk, an Rechner der Teilnehmer, d.h. der besagten natürlichen Personen, verteilt und dort in Form eines Programms, z.B. als eine Slide-Show dargestellt werden. Dabei kann die Reihenfolge der einzelnen Grafiken, z.B. in Abhängigkeit von einem Zufallsgenerator, für verschiedene Teilnehmer variieren. Auch können dieselben Grafiken denselben Teilnehmern mehrfach aber in einer veränderten Reihenfolge präsentiert werden, um unterschiedliche Assoziationen auszulösen und Kombinationen herzustellen. Weiterhin sind The representation of the patent graphics for viewing and combining by natural persons, such as developers, designers, professionals, interested lay people, etc., further limited by no means to conventional exhibitions in the form of galleries in which prints of the graphics can be posted conventionally. In a further preferred embodiment, these graphics can be distributed, for example via a network, to computers of the subscribers, ie the said natural persons, and displayed there in the form of a program, eg as a slide show. It can the Order of the individual graphics, eg depending on a random number generator, vary for different participants. Also, the same graphics may be presented to the same participants multiple times but in a different order to trigger different associations and create combinations. Furthermore are
Ausgestaltungen denkbar, bei denen die Teilnehmer den Computermonitor durchlaufende Grafiken per Mausklick auswählen oder Teile davon miteinander kombinieren und speichern können. Configurations conceivable in which the participants select the computer monitor continuous graphics by mouse click or parts of it can combine and save.
Ausführungsbeispiel embodiment
Ein Ausführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird im Folgenden näher erläutert. Es zeigen: An embodiment of the invention is illustrated in the drawings and will be explained in more detail below. Show it:
Fig. 1 einen vereinfachten Ablauf einer zweistufigen Auswahlphase; 1 shows a simplified sequence of a two-stage selection phase;
Fig. 2 einen ausführlicheren Ablauf der zweistufigen Auswahlphase; FIG. 2 shows a more detailed sequence of the two-stage selection phase; FIG.
Fig. 3 ein Prozessdiagramm einer dazugehörigen Trainingsphase; 3 is a process diagram of an associated training phase;
Fig. 4 einen Ablauf eines gesamten Ideenfindungsverfahrens; Fig. 4 shows a flow of an entire idea generation process;
Fig. 5 a eine Klassifikation von Patentdokumenten verschiedener Sektionen mittels mehrerer sektionsspezifischer Klassifikatoren; 5 a shows a classification of patent documents of different sections by means of a plurality of section-specific classifiers;
Fig. 5 b eine Klassifikation von Patentdokumenten verschiedener Sektionen mittels eines gemeinsamen Klassifikators. Fig. 5 b is a classification of patent documents of different sections by means of a common classifier.
Die Figuren enthalten teilweise vereinfachte, schematische Darstellungen. Zum Teil werden für gleiche, aber gegebenenfalls nicht identische Elemente identische Bezugszeichen verwendet. Verschiedene Ansichten gleicher Elemente könnten unterschiedlich skaliert sein. Die Fig.1 zeigt einen grundsätzlichen, grob vereinfachten Ablauf einer zweistufigen Patentklassifikation in einer sogenannten„Auswahlphase". Der Begriff „Auswahlphase" dient dabei zur Unterscheidung von einer sonst im Ablauf ähnlichen, sogenannten„Trainingsphase" und bedeutet, dass die in der Auswahlphase ermittelten, relevanten Patentgrafiken ein reguläres Ergebnis darstellen, das später zur Ideenfindung durch natürliche Personen, also z.B. Entwickler, Konstrukteure, Fachleute, Interessierte Laien, etc., ausgegeben werden kann. The figures contain partially simplified, schematic representations. In part, identical reference numerals are used for the same but possibly not identical elements. Different views of the same elements could be scaled differently. 1 shows a basic, roughly simplified procedure of a two-stage patent classification in a so-called "selection phase." The term "selection phase" serves to distinguish from a so-called "training phase", which otherwise resembles the procedure, and means that those determined in the selection phase , relevant patent graphics represent a regular result that can later be spent on brainstorming by natural persons, such as developers, designers, professionals, interested lay people, etc.
Bei dieser zweistufigen Patentklassifikation wird zunächst eine erste Stufe, aufweisend einen Textklassifikator 3, von Patentdokumenten einer Grundmenge 1 zur Analyse der dazugehörigen Patenttexte 2 durchlaufen und daraufhin wird eine zweite Stufe, aufweisend einen Bildklas- sifikator 7 lediglich von den in der ersten Stufe ausgewählten Patentdokumenten zur Analyse der dazugehörigen Patentgrafiken 6 durchlaufen. In this two-stage patent classification, a first stage, comprising a text classifier 3, is first passed through patent documents of a base set 1 for analysis of the associated patent texts 2, and then a second stage, comprising an icon classifier 7, is selected only from the patent documents selected in the first stage Analysis of related patent graphics 6 go through.
Die Grundmenge 1 könnte theoretisch aus hunderttausenden oder gar Millionen von Patentdokumenten bestehen. Da für die Ideenfindungs- methode im Resultat jedoch nur ca. 100 relevante Patentgrafiken 23 benötigt werden, kann eine wesentlich geringere Grundmenge 1 von beispielsweise 5000 bis 10000 Dokumenten ausreichend sein. The basic set 1 could theoretically consist of hundreds of thousands or even millions of patent documents. Since, however, only about 100 relevant patent graphics 23 are required for the brainstorming method, a significantly lower basic quantity 1 of, for example, 5,000 to 10,000 documents may be sufficient.
Zur Gewinnung der Grundmenge 1 aus einer z.B. öffentlichen Datenbank kann dazu bereits eine thematische Vorauswahl, z.B. durch eine Schlagwortsuche und/oder durch eine grobe Einschränkung der IPC- /CPC-Sektionen oder dazugehöriger Patentklassen stattgefunden haben. Dies ist besonders vorteilhaft, weil durch das rechtzeitige Vermeiden völlig irrelevanter Themenkomplexe sehr viel Rechenleistung eingespart wird, wodurch das Verfahren sehr viel effizienter wird. In der ersten Stufe werden die Patenttexte 2 der Patentdokumente der Grundmenge 1 mit einem Textklassifikator 3, aufweisend eine Textklassifikationsfunktion γ, ausgewählt. Dadurch wird aus der Grundmenge 1 eine erste Teilmenge 4 textlich relevanter Patentdokumente ausgewählt. In order to obtain the basic quantity 1 from a public database, for example, a thematic preselection, for example by means of a keyword search and / or by a rough restriction of the IPC / CPC sections or associated patent classes, may have already taken place. This is particularly advantageous because the timely avoidance of completely irrelevant subject complexes saves a great deal of computing power, which makes the method much more efficient. In the first stage, the patent texts 2 of the patent documents of the base set 1 are selected with a text classifier 3 having a text classification function γ. As a result, a first subset 4 of textually relevant patent documents is selected from the basic quantity 1.
Gleichzeitig wird dadurch auch automatisch eine Restmenge 5 textlich irrelevanter Patentdokumente erzeugt, die im weiteren Verfahren nicht mehr beachtet wird. At the same time, a residual amount of 5 textually irrelevant patent documents is automatically generated thereby, which is no longer considered in the further process.
In der zweiten Stufe werden daraufhin die Patentgrafiken 6, welche zu den Patentdokumenten der ersten Teilmenge 4 gehören, zusammengestellt. Die Patentdokumente der ersten Teilmenge 4 werden nun durch eine zweite Klassifikation, nämlich eine Bildklassifikation mit einem Bildklassifi- kator 7, aufweisend eine Bildklassifikationsfunktion ε, wiederum in zwei weitere sogenannte„Kategorien" aufgeteilt, nämlich in eine zweite Teilmenge 8 und in eine weitere Restmenge 9, wobei die zweite Teilmenge 8 nun diejenigen Patentdokumente umfasst, die sowohl entsprechend ihrem textlichen Inhalt als auch entsprechend ihrer Patentgrafik zur manuellen Analyse, Kombination und/oder Ideenfindung geeignet sind. Diese Patentdokumente werden in diesem Zusammenhang auch als relevante Dokumente und ihre Grafiken dementsprechend als relevante Patentgrafiken oder auch als relevante Patentbilder 23 bezeichnet. Die weitere Restmenge 9, gebildet aus den gemäß ihrer Grafiken nicht relevanten Patentdokumenten der ersten Teilmenge 4, wird im vorliegenden Verfahren nicht mehr beachtet. In the second stage, the patent graphics 6 belonging to the patent documents of the first subset 4 are then compiled. The patent documents of the first subset 4 are now by a second classification, namely an image classification with a Bildklassifi- 7, comprising an image classification function ε, in turn divided into two more so-called "categories", namely in a second subset 8 and in a further residual amount The second subset 8 now comprises those patent documents which are suitable both for their textual content and according to their patent graphics for manual analysis, combination and / or brainstorming .. In this context, these patent documents are also considered to be relevant documents and their graphics as relevant Patent graphics or also referred to as relevant patent images 23. The remaining quantity 9, formed from the patent documents of the first subset 4 which are not relevant according to their graphics, is no longer considered in the present process.
Die Fig. 2 zeigt ein etwas ausführlicheres Prozessdiagramm der Auswahlphase im zweistufigen Verfahren. FIG. 2 shows a somewhat more detailed process diagram of the selection phase in the two-stage process.
Im ersten Schritt 1 1 werden die Patenttexte 2 der Grundmenge 1 , beispielsweise im dafür üblichen XML-Format, eingelesen. In einer möglichen Ausführungsform geschieht dies in Form von Volltexten, umfas- send den sogenannten„Abstract", d.h. die Zusammenfassung, weiterhin den sogenannten„Stand der Technik", die sogenannte„Patentbeschreibung", das sogenannte„Ausführungsbeispiel" sowie die sogenannten„Ansprüche". Bevorzugt kann jedoch auf den Textabschnitt, der den Stand der Technik beschreibt, verzichtet werden, weil dieser genau genommen nicht die Erfindung selbst beschreibt. Weiterhin kann vorteilhafterweise auch auf das Einlesen der Ansprüche verzichtet werden, weil diese verstärkt juristisch geprägte Formulierungen und Begriffe aufweisen, welche zur Ideenfindung erfahrungsgemäß weniger gut geeignet sind. In diesem Fall umfassen die eingelesen Texte also lediglich den Abstract, die allgemeine Patentbeschreibung und das Ausführungsbeispiel. Dazu ist es besonders vorteilhaft, wenn das Textformat, diese Unterscheidung ermöglicht, d.h. die verschiedenen Textabschnitte entsprechend kennzeichnet. In the first step 1 1, the patent texts 2 of the basic set 1, for example in the usual XML format, read. In one possible embodiment, this takes the form of full texts, comprehensive send the so-called "abstract", ie the abstract, furthermore the so-called "state of the art", the so-called "patent description", the so-called "exemplary embodiment" as well as the so-called "claims." However, preference may be given to the text section which is the prior art Furthermore, the reading-in of the claims can advantageously also be dispensed with because they have increasingly juristically embossed formulations and terms which, according to experience, are less well suited for the generation of ideas Thus, it is particularly advantageous if the text format enables this distinction, ie, identifies the different text sections accordingly.
Im zweiten Schritt 12 findet eine Extraktion von Merkmalen statt. Dies kann durch das Feststellen vollständiger Begriffe oder auch durch Teilbegriffe, d.h. sogenannte„n-Gramme" geschehen. So werden beispielsweise aus dem Satz„Sie laufen zu ihr nach Hause" folgende Tri- gramme (N = 3) gebildet:„sie, lau, auf, ufe, fen, zu, ihr, nac, ach, hau, aus, use". Auch andere Merkmalsextrationen sind in diesem Zusammenhang möglich, z.B. bestehend aus mehreren Begriffen mit definierten Wortabständen bis hin zur grammatikalisch definierten Satzkonstruktionen mit einer Subjekt/Prädikat/Objektanalyse. In Zusammenhang damit oder auch separat davon ist auch eine sinngemäße Zusammenführung von Synonymen denkbar und kann sich je nach Aufgabenstellung als sinnvoll erweisen. Weiterhin ist eine vorangegangene Verwendung eines sogenannten„Stoppwortfilters", der aussageschwache Begriffe, wie z.B. Artikel, Konjunktionen, Präpositionen, etc., eliminiert, sowie die Verwendung eines Thesaurus zur Korrektur von möglichen Rechtschreibfehlern, wie sie insbesondere durch das Einscannen von Dokumenten und einer anschließende optischen Schrifterkennung, z.B. dem sogenannten„OCR" (optical character recognation), entstehen können, möglich und sinnvoll. Dabei kann auch das besagte χ2- Verfahren Verwendung finden. In the second step 12, an extraction of features takes place. This can be done by determining complete concepts or by partial terms, ie so-called "n-grams." For example, the following trigrams (N = 3) are formed from the sentence "They walk to their home": "they, lau , to, to, to, to, to, to, to, to, to, to, to, use. "Other feature expressions are also possible in this context, eg consisting of several terms with defined word spacing up to grammatically defined sentence constructions with a subject / predicate In connection with or separately from this, it is also conceivable to merge synonyms in a meaningful way and depending on the task, it may be useful to use a so-called "stop-word filter", which is meaningless terms such as articles, conjunctions, prepositions , etc., as well as the use of a thesaurus for correcting possible spelling errors, such as those caused by the scanning of documents and a subsequent optical character recognition, For example, the so-called "OCR" (optical character recognition), can arise, possible and useful.Also the said χ 2 - method can be used.
Bei der Merkmalsgewichtung im dritten Schritt 13 kann die Häufigkeit der jeweiligen Merkmale absolut oder normiert verwendet und insbesondere auch mit ihrer Gesamthäufigkeit in der Grundmenge 1 abgeglichen werden. In the feature weighting in the third step 13, the frequency of the respective features can be used absolutely or normalized and, in particular, also be compared with their total frequency in the basic quantity 1.
Entsprechend einem sogenannten„Retrievalmodel" können diese gewichteten Merkmale analysiert und im vierten Schritt 14 durch Anwenden der Textklassifikationsfunktion γ ausgewertet werden. According to a so-called "retrieval model", these weighted features can be analyzed and evaluated in the fourth step 14 by applying the text classification function γ.
Als übliche Retrievalmodelle werden in der Praxis meist das sogenannte„Boolsche Model", das sogenannte„Vektorraummodel" sowie das sogenannte„probabilistisches Modell" genutzt: The usual retrieval models used in practice are usually the so-called "Boolean model", the so-called "vector space model" and the so-called "probabilistic model":
Diese sind folgendermaßen charakterisiert: These are characterized as follows:
Das Boolsche Modell, auch bekannt als sogenannte„Schlagwortsuche", basiert auf dem Ansatz, Textdokumente nach dem Vorhandensein oder Fehlen von Stichwörtern zu durchsuchen. Bei der Anwendung wird mittels einzelner Wörter gesucht. Ergebnis dieser Suche ist eine Menge der Dokumente, in der diese Suchwörter enthalten sind. Die Suchbegriffe können durch die logischen Operatoren„UND",„ODER" sowie„NOT" kombiniert werden. Eine Rangfolge der Ergebnismenge ist dabei nicht möglich. The Boolean model, also known as "keyword search", is based on the approach of searching text documents for the presence or absence of keywords, searching for words using a single word, resulting in a set of documents containing these keywords The search terms can be combined by the logical operators "AND", "OR" and "NOT". A ranking of the result set is not possible.
Das Vektorraummodell basiert darauf, dass sowohl die Suchanfrage als auch die Dokumente der Ergebnismenge als Vektoren in einem hoch- dimensionalen Raum abgebildet werden. Die Vektoren der Anfrage und jedes Ergebnisses werden miteinander verglichen. Je ähnlicher sich diese Vektoren sind, desto höher wird die Relevanz des betreffenden Dokumentes der Ergebnismenge für die Antwort zur Anfrage eingeschätzt. Dadurch entsteht ein Ranking der Dokumente in der Ergebnismenge. Zur Verwendung des Vektorraum-Models zur Klassifikation der Dokumente kann beispielsweise die sogenannte„Support Vector Machine" verwendet werden. The vector space model is based on the fact that both the search query and the documents of the result set are mapped as vectors in a high-dimensional space. The vectors of the request and each result is compared with each other. The more similar these vectors are, the more highly the relevancy of the particular document of the result set for the response to the query is estimated. This results in a ranking of the documents in the result set. To use the vector space model for the classification of documents, for example, the so-called "Support Vector Machine" can be used.
Das probabilistische Modell basiert auf Wahrscheinlichkeitswerten. Die größte Herausforderung beim sogenannten„Information Retrieval" (Informationsgewinnung) in Texten ist schließlich die Vagheit der Sprache. Somit gibt es keine absolute Sicherheit, dass ein Dokument zu einer Anfrage relevant ist. Daher werden Wahrscheinlichkeiten für die Relevanz von Dokumenten berechnet. Hierbei wird die Relevanz als Ähnlichkeitswert angegeben. Die Ähnlichkeit ist hierbei abhängig von der Häufigkeit der Suchbegriffe im Dokument. Je höher die errechnete Wahrscheinlichkeit ist, desto relevanter wird das Dokument für die Anfrage eingeschätzt. Als Wahrscheinlichkeitsbasiertes Klassifikationsverfahren kann beispielsweise das sogenannte„Naive-Bayes- Klassifikationsverfahren" Verwendung finden. The probabilistic model is based on probability values. Finally, the biggest challenge in information retrieval in texts is the vagueness of the language, so there is no absolute assurance that a document is relevant to a request, so probabilities of relevance to documents are calculated Relevance is given as a similarity value The similarity here depends on the frequency of the search terms in the document The higher the calculated probability, the more relevant the document is estimated for the query The probability-based classification method, for example, the so-called "Naive-Bayes classification method" use Find.
Entsprechend ihrer Gewichtung können die Patentdokumente durch das im vierten Schritt 14 erfolgte Anwenden der Textklassifikationsfunktion γ auf ihre Patenttexte 2 im fünften Schritt 15 einer Kategorie zugewiesen werden. Bei der Kategorie handelt es sich insbesondere um die zuvor beschriebene und in Fig. 1 dargestellte erste Teilmenge 4. According to their weighting, the patent documents can be assigned to a category by applying the text classification function γ to their patent texts 2 in the fifth step 15 by the fourth step 14. The category is in particular the first subset 4 described above and shown in FIG.
Zu den auf diese Weise im sechsten Schritt 16 aufgefundenen relevanten Patentdokumenten werden im siebten Schritt 17 die dazugehörigen Patentgrafiken 6 zusammengestellt. Im achten Schritt 18 werden diese Patentgrafiken 6, beispielsweise als PNG-Dateien oder auch in irgendeinem anderen Grafikformat, eingelesen. Die Grafiken der textlich nicht relevanten Patendokumente der Restmenge 5 werden nicht eingelesen. Dadurch wird ein Einlesen von inhaltlich nicht relevanten Grafiken vermieden und führt damit zu einem schlanken und ressourcenschonenden Prozess. For the relevant patent documents found in this way in the sixth step 16, the associated patent graphics 6 are compiled in the seventh step 17. In the eighth step 18 these patent graphics 6 are read, for example as PNG files or in any other graphic format. The graphics of the textually irrelevant patent documents of the remaining quantity 5 are not read. This avoids the import of content-irrelevant graphics and thus leads to a lean and resource-saving process.
Im neunten Schritt 19 wird eine Merkmalsextraktion aus den Patentgrafiken mit einem sogenannten„Image Mining" durchgeführt. In the ninth step 19, a feature extraction from the patent graphics is performed with a so-called "image mining".
Analog zur Textanalyse können beim Image Mining digitale Bilder, z.B. die Patentgrafiken 6 der Patentdokumente der ersten Teilmenge 4, nach vorgegebenen Kriterien gezielt gesucht werden. Dies basiert auf einer inhaltsbasierten Bildersuche, nämlich dem sogenannten„Content Based Image Retrieval". Der Inhalt eines Bildes wird von einem Softwarealgorithmus analysiert. Dazu werden beispielsweise Farbe, Umrisse und Texturen verwendet. Mit Hilfe verschiedener Methoden können dabei Merkmale aus dem Bild extrahiert und als Merkmalsvektoren dargestellt werden. Sobald die Bildinformationen als Merkmalsvektoren vorliegen, können nun analog zur oben beschriebenen Textanalyse die Verfahren zur Merkmalsauswahl und im zehnten Schritt zur Merkmals- gewichtung 20 angewendet werden. Analogous to text analysis, image mining can use digital images, e.g. the patent graphics 6 of the patent documents of the first subset 4, are sought in a targeted manner according to predetermined criteria. This is based on content-based image retrieval, the so-called "content based image retrieval." The content of an image is analyzed by a software algorithm, such as color, outlines, and textures, which can be used to extract features from the image as well as As soon as the image information is present as feature vectors, the methods for feature selection and in the tenth step for feature weighting 20 can now be used analogously to the text analysis described above.
So können durch das im elften Schritt 21 erfolgende Anwenden der Bildklassifikationsfunktion ε die Patentgrafiken im zwölften Schritt 22 verschiedenen Kategorien 8, 9 zugewiesen werden. Insbesondere findet eine binäre Klassifikation statt, d.h. die Grafiken werden gemäß einer Ja/Nein-Entscheidung zwischen zwei verschiedenen Kategorien aufgeteilt, nämlich zwischen der zweiten Teilmenge 8 und der dazugehörigen weiteren Restmenge 9. Die zweite Teilmenge 8 umfasst dann die relevanten Patentdokumente, beinhaltend die relevanten Patentbil- der 23, welche zur manuellen Kombination/Analyse/Ideenfindung durch natürliche Personen geeignet sind. Thus, by applying the image classification function ε in the eleventh step 21, the patent graphics in the twelfth step 22 can be assigned to different categories 8, 9. In particular, a binary classification takes place, ie the graphics are divided according to a yes / no decision between two different categories, namely between the second subset 8 and the associated further residual set 9. The second subset 8 then comprises the relevant patent documents, including the relevant ones Patentbil- 23, which are suitable for manual combination / analysis / brainstorming by natural persons.
Um derartige Auswahlverfahren durchführen zu können, müssen jedoch zuvor die Textklassifikatonsfunktion y und der Bildklassifikationsfunktion ε berechnet werden. In order to be able to perform such selection methods, however, the text classification function y and the image classification function ε must first be calculated.
Die Fig. 3 zeigt dazu den Ablauf zum Trainieren des Text- 3 und des Bildklassifikators 7, also zur Berechnung der jeweiligen Klassifikationsfunktion γ, ε . 3 shows the procedure for training the text 3 and the image classifier 7, that is, for calculating the respective classification function γ, ε.
Dazu werden zum Trainieren des Klassifikators, in diesem Falle des Textklassifikators 3, zunächst manuell inhaltlich geeignete Patentdokumente ausgewählt, die im Folgenden als Trainingsdokumente bezeichnet werden. Diese Trainingsdokumente sollten nicht Bestandteil der Grundmenge 1 sein, um das Ergebnis nicht durch ein sogenanntes „Übertrainieren" zu verfälschen. Dazu können diese Trainingsdokumente beispielsweise zunächst mit Schlagworten in einer z.B. öffentlichen Patentdatenbank gesucht und daraufhin manuell ausgewählt werden. Als Richtwert können beispielsweise mindestens 100, also beispielsweise etwa 250 - 500 Dokumente auf diese Weise als relevante Trainingsdokumente verwendet werden. Weiterhin wird auch eine Menge nichtrelevanter Trainingsdokumente ausgewählt und in etwa gleicher Anzahl, d.h. ebenfalls mindestens 100, bevorzugt 250 - 500 Dokumente ausgewählt. Diese manuell ausgewählten relevanten und nichtrelevanten Trainingsdokumente werden im Folgenden als Trainingsdokumente verwendet. For this purpose, in order to train the classifier, in this case the text classifier 3, first of all manually selected content documents are selected, which are referred to below as training documents. These training documents should not be part of the basic quantity 1 in order not to falsify the result by a so-called "overtraining." For example, these training documents can first be searched for with keywords in a public patent database, for example, and then selected manually. Thus, for example, about 250-500 documents are used as relevant training documents in this way Furthermore, a large number of non-relevant training documents are selected and selected in about the same number, ie also at least 100, preferably 250-500 documents These manually selected relevant and non-relevant training documents used in the following as training documents.
Im ersten Schritt 1 1 ' des Trainings des Textklassifikators 3 werden die zu diesen Trainingsdokumenten gehörenden Texte in den Computer eingelesen und dabei als relevant oder nicht relevant gekennzeichnet. Im zweiten Schritt 12' findet eine Extraktion von Merkmalen aus diesen Trainingsdokumenten analog zum oben beschriebenen zweiten Schritt 12 der Auswahlphase statt. Dabei, kann in guter Näherung das dem Fachmann bekannte und oben bereits ausführlich beschriebene χ2- Verfahren als vereinfachter Ansatz für das probabilistische Modell auf der Basis von Häufigkeitswerten statt Wahrscheinlichkeiten eingesetzt werden. Auch findet dadurch aus folgendem Grund eine erhebliche Einsparung von Rechenleistung statt: In the first step 11 'of the training of the text classifier 3, the texts belonging to these training documents are read into the computer and thereby marked as relevant or not relevant. In the second step 12 ' , an extraction of features from these training documents takes place analogously to the second step 12 of the selection phase described above. In this case, the χ 2 method known to the person skilled in the art and already described in detail above can be used as a simplified approach for the probabilistic model on the basis of frequency values instead of probabilities. There is also a considerable saving in computing power for the following reason:
Da viele Merkmale das Verfahren sowohl in der Trainingsphase als auch in der Auswahlphase sehr stark verlangsamen würden, daher ist es vorteilhaft, nur die aussagekräftigsten Merkmale zu verwenden, also diejenigen Merkmale, welche die relevanten von den irrelevanten Dokumenten am deutlichsten unterscheiden. Mittels dem %2-Verfahren wird im Allgemeinen die Unabhängigkeit zweier Variablen - und im vorliegenden Fall die Abhängigkeit eines Merkmals zu einer Kategorie - in diesem Fall relevant/nichtrelevant - festgestellt. Das χ2- Verfahren ist daher besonders gut dazu geeignet, diese aussagekräftigsten Merkmale zu finden. Because many features would greatly slow down the process in both the training phase and the selection phase, it is advantageous to use only the most meaningful features, those features that most clearly distinguish the relevant from the irrelevant documents. In general, the independence of two variables - and in the present case the dependence of a feature on a category - in this case relevant / non-relevant - is determined by the% 2 method. The χ 2 method is therefore particularly well suited to finding these most meaningful features.
Das %2-Verfahren kann zur Merkmalsextraktion 12, 12', 19, 19', sowohl in der Trainings- als auch in der Auswahlphase sowohl für die Text- als auch für die Bildanalyse eingesetzt werden. Weiterhin kann das χ2- Verfahren zur Berechnung 30, 31 der Klassifikationsfunktionen The% 2 method can be used for feature extraction 12, 12 ' , 19, 19 ' in both the training and selection phases for both text and image analysis. Furthermore, the χ 2 - method for calculating 30, 31 of the classification functions
ε, γ verwendet werden. ε, γ can be used.
Im dritten Schritt 13' der Trainingsphase findet die Merkmalsgewichtung 13' analog zur Merkmalsgewichtung 13 der Auswahlphase statt. Dabei kann insbesondere die Häufigkeit des Auftretens bestimmter Kennzeichen ausgewertet und kann weiterhin in ein Verhältnis zu der Gesamthäufigkeit dieser Kennzeichen gesetzt werden. Im vierten Schritt 14' wird die Textklassifikationsfunktion γ berechnet. Dabei kann beispielsweise mit dem oben beschriebenen χ2- Verfahren die Relevanz einzelner gewichteter Merkmale genutzt werden, um bezogen auf den gesuchten Inhalt die relevantesten Merkmale auszuwählen. In the third step 13 'of the training phase, the feature weighting 13 ' takes place analogously to the feature weighting 13 of the selection phase. In particular, the frequency of occurrence of particular identifiers can be evaluated and can furthermore be set in relation to the total frequency of these identifiers. In the fourth step 14 ' , the text classification function γ is calculated. In this case, the relevance of individual weighted features can be used, for example, with the χ 2 method described above, in order to select the most relevant features based on the searched content.
Das Trainieren des Bildklassifikators 7 verläuft im Wesentlichen analog zu dem vorgenannten Trainieren des Textklassifikators 3. Es werden eine geeignete Anzahl > 100, z.B. zwischen 250 und 500 relevante Grafikdokumente als Trainingsdokumente gemäß ihrer Eigenschaften manuell ausgewählt. Diese Dokumente sollten bevorzugt nicht zu den Patentdokumenten der Grundmenge 1 und insbesondere nicht zur ersten Teilmenge 4 gehören, um das Ergebnis nicht durch das besagte Übertrainieren zu verfälschen. The training of the image classifier 7 is substantially analogous to the aforementioned training of the text classifier 3. A suitable number> 100, e.g. between 250 and 500 relevant graphic documents manually selected as training documents according to their characteristics. These documents should preferably not belong to the patent documents of the base set 1 and in particular not to the first subset 4, so as not to falsify the result by said overtraining.
Diese Trainingsdokumente werden im ersten Schritt 18' des Trainings des Bildklassifikators 7 als relevant oder nicht relevant gekennzeichnet und in den Computer eingelesen. These training documents are identified in the first step 18 'of the training of the image classifier 7 as relevant or not relevant and read into the computer.
Im zweiten Schritt 19' werden mittels dem oben genannten„image mi- ning" die Merkmale extrahiert und im dritten Schritt 20' z.B. mit dem χ2- Verfahren gewichtet, um so im vierten Schritt 21 ' die Klassifikationsfunktion ε berechnen zu können. In the second step 19 ' , the features are extracted by means of the abovementioned "image minimizing" and weighted in the third step 20 ', eg using the χ 2 method, in order to be able to calculate the classification function ε in the fourth step 21 ' .
Alternativ zum Trainieren des Bildklassifikators 7 kann dieser auch fest vorgegeben sein und kann zum Verfahren gehören. Insbesondere ist dies sinnvoll, wenn der Bildklassifikator 7 sich ausschließlich auf formale Merkmale, beispielsweise die Komplexheit der Grafiken, bezieht. Entweder kann er dann einmalig durch Trainieren mit Trainingsdokumenten, die gemäß dieser Formalen Kriterien ausgewählt wurden, er- mittelt worden sein. Alternativ dazu kann als Kriterium auch ein fester Wertdefiniert werden, beispielswiese das Verhältnis in der Grafik erkannter Linien, z.B. deren Gesamtlänge oder deren Fläche, z.B. Anzahl ihrer Pixel, zu der Gesamtabmessung der Grafik, z.B. deren Diagonale oder Fläche, z.B. Anzahl deren Pixel. Darüber ist die Komplexität der gesuchten relevanten Patentgrafiken dann manuell einstellbar. As an alternative to training the image classifier 7, this can also be fixed and can belong to the method. In particular, this makes sense if the image classifier 7 refers exclusively to formal features, such as the complexity of the graphics. He can then either once by training with training documents, which were selected according to these formal criteria, been mediated. Alternatively, a fixed value can be defined as a criterion, for example the ratio in the graph of recognized lines, eg their total length or their area, eg number of pixels, to the overall dimension of the graphic, eg their diagonal or area, eg number of their pixels. In addition, the complexity of the searched relevant patent graphics is then manually adjustable.
Die Fig. 4 stellt beispielhaft einen möglichen Gesamtablauf eines Verfahrens zur Ideenfindung dar. FIG. 4 exemplifies a possible overall sequence of a method for brainstorming.
In Punkt I.) wird die Grundmenge 1 von mindestens 500 Patentdokumenten mit dazugehörigen Patenttexten 2 einer bestimmten Sprache zusammengestellt. In point I.), the basic quantity 1 of at least 500 patent documents with associated patent texts 2 of a specific language is compiled.
In Punkt II.) erfolgt unabhängig davon eine manuelle Auswahl von Trainingsdokumenten je nach Thema der technischen Problemstellung. Dabei sollen die Trainingsdokumente nicht in der Grundmenge 1 enthalten sein. In point II.) Takes place independently of a manual selection of training documents depending on the topic of the technical problem. The training documents should not be included in the basic quantity 1.
In Punkt III.) erfolgt das Trainieren eines insbesondere binären Textklassi- fikators 3 mit Trainingsdokumenten mittels einer automatischen Merkmalsextraktion aus den Trainingsdokumenten. In point III.) Training a particular binary Textklassi- fikators 3 with training documents by means of an automatic feature extraction from the training documents.
In Punkt IV.) wird der so ermittelte Textklassifikator 3 auf die Patentdokumente 2 der Grundmenge 1 angewendet. Dadurch wird die erste Teilmenge 4 erzeugt. In item IV.), The text classifier 3 thus determined is applied to the patent documents 2 of the basic quantity 1. As a result, the first subset 4 is generated.
In Punkt V.) werden Patentgrafiken 6 zu den Patentdokumenten der ersten Teilmenge 4 zusammengestellt. In point V.) patent graphics 6 are combined to the patent documents of the first subset 4.
In Punkt VI.) werden manuell geeignete Patentgrafiken als Trainingsdokumente für den Bildklassifikator 7 ausgewählt, wobei die dazugehörigen Patentdokumente bevorzugt nicht zu der Grundmenge 1 und insbesondere nicht zu der ersten Teilmenge 4 gehören. Die Patentgrafiken können relevant und nicht relevant sein und dem entsprechend gekennzeichnet zum Trainieren des Bildklassifikators 7 eingesetzt werden. In Item VI.) Are selected suitable manual patent graphics as training documents for the Bildklassifikator 7, the associated Patent documents preferably do not belong to the basic set 1 and in particular not to the first subset 4. The patent graphics may be relevant and irrelevant and appropriately labeled for training the image classifier 7.
In Punkt VII.) wird ein Bildklassifikator 7 durch die automatische Merkmalsextraktion 19' aus diesen Trainingsdokumenten trainiert. Alternativ dazu kann auch ein vorgegebener Bildklassifikator 7 verwendet werden, bei dem insbesondere ein formales und daher themenübergreifendes Kriterium, beispielsweise die Komplexheit der Bilder, als Auswahlkriterium verwendet wird. in Punkt VIII.) wird der Bildklassifikator 7 auf die Patentgrafiken 6 der ersten Teilmenge 4 angewendet, um so eine zweiten Teilmenge 8 zu erzeugen. In point VII.), An image classifier 7 is trained by the automatic feature extraction 19 ' from these training documents. Alternatively, a predefined image classifier 7 can also be used, in which, in particular, a formal and therefore cross-subject criterion, for example the complexity of the images, is used as a selection criterion. in point VIII.), the image classifier 7 is applied to the patent graphics 6 of the first subset 4 so as to produce a second subset 8.
In Punkt IX.) werden die Patentgrafiken der Patentdokumente der der zweiten Teilmenge 8 ausgegeben. In point IX.), The patent graphics of the patent documents are issued to the second subset 8.
In Punkt X.) können optional technischen Lösungen, die in den Patentgrafiken der zweiten Teilmenge 8 enthalten sind, miteinander kombiniert werden. Dieser Punkt ist für die Durchführung des Verfahrens nicht notwendig. In point X.) optional technical solutions contained in the patent graphics of the second subset 8 can be combined with each other. This point is not necessary for the implementation of the procedure.
In Punkt XI.) können die Patentgrafiken oder auch Kombination der Lösungsbausteine aus dem optionalen Punkt X.), z.B. als Bilder ausgegeben werden, beispielsweise durch sichtbares Aushängen der Ausdrucke in einer Galerie oder durch grafische Darstellung mittels eines Computerprogramms z.B. über ein Netzwerk oder dergleichen. In Punkt XII.) werden die Kombinationen manuell durch die natürlichen Personen, also Teilnehmer des Ideenfindungsverfahrens, bewertet. In point XI.), The patent graphics or combination of the solution modules from the optional point X.), For example, as images are output, for example by visibly unhooking the prints in a gallery or by graphical representation using a computer program, for example via a network or the like. In point XII.), The combinations are evaluated manually by the natural persons, ie participants of the brainstorming process.
Die Fig. 5 stellt den Unterschied zwischen der Auswahl mittels der in Fig. 5a dargestellten sektionsspezifischen Textklassifikationsfunktionen Yi , 2, 3 und der in Fig. 5b dargestellten nicht sektionsspezifischen Textklassifikationsfunktion y dar. Fig. 5 illustrates the difference between the selection by means of the section-specific text classification functions Yi, 2, 3 shown in Fig. 5a and the non-section-specific text classification function y shown in Fig. 5b.
In der Fig. 5a werden die Patentexte einzelner IPC-Sektionen S1 , S2, S3 jeweils über einen dazugehörigen Textklassifikator 3',3",3"', aufweisend eine entsprechende Textklassifikationsfunktion γ-ι , γ2, 73, ausgewählt. In FIG. 5 a, the patent texts of individual IPC sections S1, S2, S3 are respectively selected via an associated text classifier 3 ' , 3 " , 3 "' , having a corresponding text classification function γ- 1 , γ 2 , 73.
Aus den dadurch jeweils ermittelten relevanten Patentdokumenten werden dann jeweils Unterteilmengen 4', 4", 4"' erzeugt. Diese Unterteilmengen 4', 4", 4"' können dann wieder zu der ersten Teilmenge 4 vereinigt werden. Die nicht relevanten Patentdokumente werden entsprechend den dazugehörigen Restmengen 5',5",5"' zugeführt, welche für das Verfahren nicht mehr beachtet werden. Subdivision quantities 4 ' , 4 " , 4 "' are then respectively generated from the relevant patent documents determined in each case. These subset quantities 4 ' , 4 " , 4 "' can then be combined again into the first subset 4. The non-relevant patent documents are supplied according to the associated residual amounts 5 ' , 5 " , 5 "' , which are no longer considered for the process.
In der Fig. 5b ist dargestellt, wie die Patentdokumente der drei verschiedenen IPC-Sektionen S1 , S2, S3 über einen einzigen gemeinsamen Textklassifikator 3 zum Erzeugen der ersten Teilmenge 4 ausgewählt werden. FIG. 5b shows how the patent documents of the three different IPC sections S1, S2, S3 are selected via a single common text classifier 3 for generating the first subset 4.
In der Praxis funktioniert diese Auswahl über einen einzigen gemeinsamen Textklassifikator 3 gemäß der vorliegenden Versuchsergebnisse schneller und ohne nennenswerte qualitative Einbußen gegenüber der wesentlich umständlicheren sektionsspezifischen Auswahl durch mehrere Textklassi- fikatoren 3',3",3"'. Verfahren zur Ideenfindunq In practice, this selection via a single common Textklassifikator 3 according to the present test results works faster and without significant qualitative losses compared to the much more cumbersome section-specific selection by multiple text classifiers 3 ' , 3 " , 3 "' . Method for finding ideas
Bezugszeichenliste LIST OF REFERENCE NUMBERS
1 Grundmenge der Patentdokumente 1 basic set of patent documents
2 Patenttexte der Patentdokumente der Grundmenge  2 Patent texts of the patent documents of the basic quantity
3, 3', 3", 3"' Textklassifikator, sektionsspezifische Textklassifikatoren 4 erste Teilmenge 3, 3 ' , 3 " , 3 "' text classifier, section-specific text classifiers 4 first subset
4',4",4"' Unterteilmengen der ersten Teilmenge 4 ' , 4 " , 4 "' subset quantities of the first subset
5, 5', 5", 5"' Restmenge(n) 5, 5 ' , 5 " , 5 "' residual quantity (s)
6 Patentgrafiken der zu analysierenden Patentdokumente 6 Patent graphics of the patent documents to be analyzed
7 Bildklassifikator 7 image classifier
8 zweite Teilmenge 8 second subset
9 weitere Restmenge  9 more remaining quantity
1 1 Einlesen der Patenttexte der Grundmenge in den Computer1 1 Reading the patent texts of the basic quantity into the computer
1 1 ' Einlesen der Trainingsdokumente in den Computer 1 1 ' Reading the training documents into the computer
12,12' Merkmalsextraktion (Text) 12,12 ' Feature extraction (text)
13,13' Merkmalsgewichtung(Text) 13.13 ' feature weighting (text)
14 Anwenden der Textklassifikationsfunktion  14 Apply the text classification function
14' Berechnung der Textklassifikationsfunktion 14 ' Calculation of the text classification function
15 Zuweisung relevanter Patentdokumente zu der ersten Teil- menge  15 Allocation of relevant patent documents to the first subset
16 relevante Patenttexte  16 relevant patent texts
17 Zusammenstellen relevanter Patentgrafiken  17 Compilation of relevant patent graphics
18 Einlesen zu untersuchender Patentgrafiken  18 Reading in to examine patent graphics
18' Einlesen der Patentgrafiken der Trainingsdokumente 19, 19' Merkmalsextraktion (Grafik) 18 ' reading the patent graphics of the training documents 19, 19 ' feature extraction (graphic)
20, 21 Merkmalsgewichtung (Grafik) 21 Anwenden der Bildklassifikationsfunktion 20, 21 Feature weighting (graphic) 21 Apply the image classification function
21 ' Berechnung der Bildklassifikationsfunktion 21 ' Calculation of image classification function
22 Zuweisung relevanter Patentgrafiken zu der zweiten Teilmenge  22 Assignment of relevant patent graphics to the second subset
23 relevante Patentgrafiken  23 relevant patent graphics
Ύ, y^ , Y2, Y3 Textklassifikationsfunktion, sektionsspezifische Textklassifikationsfunktionen ε Bildklassifikationsfunktion Ύ, y ^, Y2, Y3 text classification function, section-specific text classification functions ε image classification function
S1 , S2, S3 Patentexte einzelner Patentkassifikationssektionen, (z.B. S1, S2, S3 Patent texts of individual patent certification sections, (e.g.
IPC-Sektionen,CPC-Sektionen)  IPC sections, CPC sections)
I.) - XII.) Verfahrensschritte eines möglichen Gesamtablaufs eines I.) - XII.) Process steps of a possible overall course of a
Verfahrens zur Ideenfindung  Method for brainstorming

Claims

Verfahren zur Ideenfindunq Method for finding ideas
Ansprüche claims
Verfahren zur Ideenfindung, insbesondere zur Entwicklung und Verbesserung von Produkten im Bereich der technischen Konstruktion, mit folgenden Schritten: Method for brainstorming, in particular for developing and improving products in the field of technical construction, comprising the following steps:
a. ) automatische Analyse von Patentdokumenten, umfassend Patenttexte (2) und Patentgrafiken (6), durch einen Computer; b. ) automatische Auswahl relevanter Patentdokumente durch dena. ) automatic analysis of patent documents comprising patent texts (2) and patent graphics (6) by a computer; b. ) automatic selection of relevant patent documents by the
Computer; Computer;
c. ) Darstellung der Patentgrafiken (23) der ausgewählten Patentdokumente; c. ) Representation of the patent graphics (23) of the selected patent documents;
d. ) Betrachten und kombinieren von in den dargestellten Patentgrafiken enthaltenen Merkmalen zum Generieren neuer Ideen durch natürliche Personen; d. Considering and combining features contained in the illustrated patent graphics to generate new ideas by natural persons;
dadurch gekennzeichnet, dass characterized in that
zur Auswahl der Patentdokumente in Verfahrensschritt b.) in einer ersten Stufe eine Textklassifikation mit einem Textklassifikator (3), aufweisend eine Textklassifikationsfunktion (γ), und in einer zweiten Stufe eine Bildklassifikation mit einem Bildklassifikator (7), aufweisend eine Bildklassifikationsfunktion (ε), durchlaufen werden. for selecting the patent documents in method step b) in a first stage a text classification with a text classifier (3), comprising a text classification function (γ), and in a second stage an image classification with an image classifier (7), comprising an image classification function (ε), to go through.
Verfahren gemäß Anspruch 1 , dadurch gekennzeichnet, dass dieA method according to claim 1, characterized in that the
Ergebnisse der beiden Stufen mit dem boolschen Operator„UND" verknüpft werden. Results of the two stages can be linked with the Boolean operator "AND".
Verfahren gemäß Anspruch 1 , dadurch gekennzeichnet, dass zunächst eine der beiden Stufen durchlaufen wird, und dass daraufhin lediglich die dabei ausgewählten Patentdokumente die jeweils andere der beiden Stufen durchlaufen. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, dass zunächst die erste Stufe von zu einer Grundmenge (1 ) gehörenden Patentdokumenten durchlaufen wird, wobei ein Teil der Patentdokumente als zu einer ersten Teilmenge (4) gehörig ausgewählt wird, und dass daraufhin die zweite Stufe lediglich von den Patentdokumenten der ersten Teilmenge (4) durchlaufen wird. A method according to claim 1, characterized in that initially one of the two stages is run through, and that then only the patent documents selected thereby pass through the respective other of the two stages. A method according to claim 3, characterized in that first passing through the first stage of patent documents belonging to a basic set (1), wherein a part of the patent documents is selected as belonging to a first subset (4), and then the second stage is executed only by the patent documents of the first subset (4) is passed through.
Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Textklassifikationsfunktion (γ) durch ein Trainieren des Textklassifikators (3) mit manuell ausgewählten Trainingsdokumenten ermittelt wird. Method according to one of the preceding claims, characterized in that the text classification function (γ) is determined by training the text classifier (3) with manually selected training documents.
Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, dass die besagten Trainingsdokumente zuvor manuell anhand eines für die jeweilige Ideenfindung relevanten Recherchekriteriums, insbesondere anhand einer technischen Funktion, ermittelt und jeweils als relevant oder nicht relevant gekennzeichnet werden. Method according to claim 5, characterized in that said training documents are previously determined manually on the basis of a search criterium relevant to the respective brainstorming, in particular on the basis of a technical function, and identified in each case as relevant or not relevant.
Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Bildklassifikation die Komplexheit der Patentgrafiken (6) als Auswahlkriterium verwendet. Method according to one of the preceding claims, characterized in that the image classification uses the complexity of the patent graphics (6) as a selection criterion.
Verfahren gemäß Anspruch 7, dadurch gekennzeichnet, dass dieMethod according to claim 7, characterized in that the
Bildklassifikationsfunktion (ε) vorgegeben ist. Image classification function (ε) is specified.
Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Bildklassifikationsfunktion (ε) durch ein Trainieren des Bildklassifikators (7) mit manuell ausgewählten Trainingsdokumenten ermittelt wird. Method according to one of the preceding claims, characterized in that the image classification function (ε) is determined by training the image classifier (7) with manually selected training documents.
10. Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass bei der Textklassifikation Patentdokumente aus verschiedenen Sektionen (S1 , S2, S3) mit der gleichen Textklassifikationsfunktion (γ) ausgewählt werden. 10. The method according to any one of the preceding claims, characterized in that in the text classification patent documents from different sections (S1, S2, S3) are selected with the same text classification function (γ).
PCT/DE2016/100302 2015-07-24 2016-07-07 Method for finding ideas WO2017016538A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102015112101.8 2015-07-24
DE102015112101.8A DE102015112101A1 (en) 2015-07-24 2015-07-24 Method for brainstorming

Publications (1)

Publication Number Publication Date
WO2017016538A1 true WO2017016538A1 (en) 2017-02-02

Family

ID=56567323

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2016/100302 WO2017016538A1 (en) 2015-07-24 2016-07-07 Method for finding ideas

Country Status (2)

Country Link
DE (1) DE102015112101A1 (en)
WO (1) WO2017016538A1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774833A (en) 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
DE60034490T2 (en) * 1999-07-30 2007-08-16 Microsoft Corp., Redmond EXPERIENCE AND DEVICE FOR PRIORIZED MESSAGES
WO2008156507A1 (en) 2007-06-15 2008-12-24 Patentcafe System and method for analyzing patent value
EP2315159A2 (en) * 2009-10-26 2011-04-27 Siemens Aktiengesellschaft Method and device for recognising and classifying sections of a document which can be accessed on a computer by means of step-by-step learning during training sessions
US20120054281A1 (en) 2010-08-27 2012-03-01 Intercenters, Inc., doing business as nTeams System And Method For Enhancing Group Innovation Through Teambuilding, Idea Generation, And Collaboration In An Entity Via A Virtual Space
US20150121185A1 (en) 2013-10-28 2015-04-30 Reed Technology And Information Services, Inc. Portfolio management system
US20150161170A1 (en) * 2009-07-17 2015-06-11 Google Inc. Image classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774833A (en) 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
DE60034490T2 (en) * 1999-07-30 2007-08-16 Microsoft Corp., Redmond EXPERIENCE AND DEVICE FOR PRIORIZED MESSAGES
WO2008156507A1 (en) 2007-06-15 2008-12-24 Patentcafe System and method for analyzing patent value
US20150161170A1 (en) * 2009-07-17 2015-06-11 Google Inc. Image classification
EP2315159A2 (en) * 2009-10-26 2011-04-27 Siemens Aktiengesellschaft Method and device for recognising and classifying sections of a document which can be accessed on a computer by means of step-by-step learning during training sessions
US20120054281A1 (en) 2010-08-27 2012-03-01 Intercenters, Inc., doing business as nTeams System And Method For Enhancing Group Innovation Through Teambuilding, Idea Generation, And Collaboration In An Entity Via A Virtual Space
US20150121185A1 (en) 2013-10-28 2015-04-30 Reed Technology And Information Services, Inc. Portfolio management system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Ein methodischer Weg zu innovativen Technologien", 1996
ESSER, DANIEL: "Selbstlernende Typklassifikation von Dokumenten für Information Retrieval im Dokument Management", GROSSER BELEG, TECHNISCHEN UNIVERSITÄT DRESDEN, 10 September 2010 (2010-09-10), pages 1 - 131
FINZEN, JAN; KASPER, HARRIET; KINTZ, MAXIMILIEN: "INNOVATION MINING", 2010, VERÖFFENTLICHUNGSJAHR, article "Effektive Recherche unternehmensstrategisch relevanter Informationen im Internet", pages: 47 - 54

Also Published As

Publication number Publication date
DE102015112101A1 (en) 2017-01-26

Similar Documents

Publication Publication Date Title
DE602004003361T2 (en) SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS
EP1311989B1 (en) Automatic search method
DE102006040208A1 (en) Patent-related search procedure and system
WO2021032824A1 (en) Method and device for pre-selecting and determining similar documents
DE112013000987T5 (en) Generating visualizations of a display group of tags representing content instances in search criteria fulfilling objects
WO2015040052A1 (en) User-controlled retrieval engine
DE112018002047T5 (en) DOCUMENT ANALYSIS WITH SEVERAL FACTORS
DE112018001165T5 (en) AUTOMATED DOCUMENT ANALYSIS FOR DIFFERENT NATURAL LANGUAGES
DE102012221251A1 (en) Semantic and contextual search of knowledge stores
EP3323059A1 (en) Method and system for visually presenting electronic raw data sets
EP1008067B1 (en) Method and system for computer assisted determination of the relevance of an electronic document for a predetermined search profile
WO2010078859A1 (en) Method and system for detecting a similarity of documents
DE102012025350A1 (en) Processing an electronic document
WO2017016538A1 (en) Method for finding ideas
DE19908204A1 (en) Fractal n-th order network for handling complex structures
EP1170678B1 (en) Method and apparatus for automatically searching for relevant sets of images
WO2012025439A1 (en) Method for searching in a plurality of data sets and search engine
EP3454233A1 (en) Method for finding technical solution elements for use in the construction of industrial products
DE10220094B4 (en) Data processing system
DE202022101222U1 (en) An automatically scalable system for optimized work recommendations
DE202022106616U1 (en) A system for representing and classifying formulas for searching mathematical information
Papilloud et al. Topic-Modelle für qualitative Textanalysen
WO2020193591A1 (en) Method and device for analyzing elements of a text collection, and method and device for searching for information in digital data
WO2011044864A1 (en) Method and system for classifying objects
DE102021108147A1 (en) computer system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16747434

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16747434

Country of ref document: EP

Kind code of ref document: A1