WO2005073908A1 - Ontological knowledge base and information retrieval method for a natural language request - Google Patents

Ontological knowledge base and information retrieval method for a natural language request Download PDF

Info

Publication number
WO2005073908A1
WO2005073908A1 PCT/FR2005/000063 FR2005000063W WO2005073908A1 WO 2005073908 A1 WO2005073908 A1 WO 2005073908A1 FR 2005000063 W FR2005000063 W FR 2005000063W WO 2005073908 A1 WO2005073908 A1 WO 2005073908A1
Authority
WO
WIPO (PCT)
Prior art keywords
units
labeled
knowledge base
lexical
semantic
Prior art date
Application number
PCT/FR2005/000063
Other languages
French (fr)
Inventor
Louis Chevallier
Anahide Tchertchian
Original Assignee
Thomson Licensing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing filed Critical Thomson Licensing
Publication of WO2005073908A1 publication Critical patent/WO2005073908A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Definitions

  • the present invention relates to a knowledge base relating to a predetermined domain and to a method for extracting data from it interrogated by a request in natural language. More particularly, the present invention relates to a knowledge base relating to a predetermined domain of knowledge, this knowledge base comprising at least one ontology base consisting of concepts and formalized roles subject to a set of semantic constraints and a base of concept instances. More particularly, the present invention relates to a method for extracting data from a knowledge base.
  • ontology base made up of formalized concepts and roles subject to a set of constraints, a base of instances relating to the concepts and verifying the constraints, and a base of keywords relating to the domain and representative of the type of questions from a set of valid answer question types and / or syntactic structures.
  • the number of documents provided in response is generally very large and, typically, the user hopes to find the information which interests him by carrying out himself the sorting among the returned responses.
  • other methods such as natural language query analysis methods carry out a syntactic analysis in the most exact way possible in order to remove ambiguities in the text of the request, for example homonymies and / or synonymies, and / or to extract relations between the words of the request to allow to eliminate irrelevant documents.
  • these prior art methods perform an analysis of the request only from the purely syntactic point of view and do not access the semantic sense of the latter.
  • the list of returned responses is usually very large, includes many off-topic documents, and these may fail to reveal important documents simply because they are not presented in a good form.
  • the knowledge domain relating to data When the knowledge domain relating to data is closed, for example when it relates to a finite set of data relating to wines, or museums, or a sport, etc., it is possible to construct a semantic modeling of the domain, c that is, to define a finite set of concepts, a set of semantic relationships relating to these, or "ontology" of the domain, and a finite set of instances relating to the concepts.
  • a knowledge base modeling a domain of knowledge. This knowledge base consists solely of data structuring of the “concept network” type. This type of modeling does not allow the direct use of formal calculations on the data in the knowledge base, an additional algorithmic modeling being therefore necessary in order to exploit it.
  • ontological knowledge bases which are based on a preliminary semantic analysis of the elements of the question as a function of the semantic relationships of the knowledge base.
  • this type of process consists first of all in a conventional manner of carrying out a precise syntactic analysis and of rejecting requests not formulated in a satisfactory manner from the point of view of the syntax used, but perfectly valid from the semantic point of view adopted in the database. ontological knowledge.
  • a process performs a preliminary filtering of requests in natural language by syntactic analysis, it lacks flexibility, and in fact forces the user to formulate his request in the right form, which a priori restricts the field of possible responses. .
  • the object of the present invention is to solve the above-mentioned problems. It relates to a process for extracting data from an ontological knowledge base which, in particular, determines a complete set of structurally viable relationships in the ontology from the query in natural language and which determines the valid responses of the query by eliminating the queries not semantically supported by the ontological knowledge base.
  • the probability of failure to provide a relevant response to the request and the probability of providing an irrelevant response are low since the relevance of a response is studied from the point of view of the formalized ontology of the base.
  • Another object of the present invention is the implementation of a method of extracting data and information supported by these data from a knowledge base specific to any field, by means of a mechanism simulating a logical reasoning, research process - decision, totally independent of the domain considered and of the information sought.
  • Another object of the present invention is the implementation of a method of extracting data from a knowledge base substantially independent of the natural language used to formulate the query, for natural languages of equivalent syntax.
  • the subject of the present invention is a method of extracting data from a knowledge base relating to a domain interrogated by a query in natural language, the knowledge base comprising at least one ontology base consisting of concepts and formal roles subject to a set of semantic constraints formulated in accordance with a predetermined description logic, a base of instances relating to concepts, and a base of keywords relating to the domain and representative of types of questions among a set of types questions and / or syntactic structures.
  • each of these elementary semantic units together verifying a tuple configuration of a predetermined set of tuple configurations; and - ° of target identification consisting in identifying at least one syntactic relation between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of question in order to determine at least one target interrogation constraint verifying a question among the set of question types; - semantic analysis of each labeled request comprising at least the steps: - validation of each of the elementary semantic units according to the constraints of the knowledge base, in order to obtain a set of validated elementary semantic units; - validation of the target interrogation constraints as a function of the associated validated elementary semantic units and / or of the knowledge base constraints, in order to obtain a set of validated interrogation targets; and - data extraction consisting in extracting from the knowledge base the instances of the base of instances verifying the validated elementary semantic units via the validated target constraints.
  • the subject of the invention is also a knowledge base relating to a predetermined domain of knowledge, this knowledge base comprising at least one ontology base consisting of formalized concepts and roles subject to a set of semantic constraints formulated in accordance with a logic of predetermined description and a base of instances relating to the concepts, characterized in that it further comprises a knowledge base relating to the field of knowledge comprising at least one base of lexical units of the interrogation constructor type consisting of words- keys representative of types of questions and syntactic patterns, the keywords representative of types of question being associated with a predetermined set of classes of syntactic structures of interrogation and with a predetermined set of concepts and roles object of interrogation.
  • FIG. 1 is a schematic diagram of the structure of a base of knowledge according to the invention associated with interrogation means; and FIG. 2 is a flow diagram of the steps of the method according to the invention. It will first be described, in relation to FIG. 1, schematically the structure of a knowledge base according to the invention.
  • the knowledge base 8 according to the invention comprises a conventional knowledge base relating to a field of knowledge predetermined, referenced by the number 10, and a knowledge base relating to the domain of the query, referenced by the number 11.
  • the knowledge base relating to the domain of knowledge 10 is a semantic modeling of it, carried out based on on a predetermined description logic supporting at least the definition (designated by the symbol s), the negation (designated by the symbol - ⁇ ), the subsumption (designated by the symbol ç), the disjunction (designated by the symbol u), the conjunction (designated by the symbol n), the universal quantification (designated by the symbol V) and the existential quantification (designated by the symbol 3).
  • This ontological knowledge base 10 conventionally comprises an ontology base 12, or "T-box", and an instance base 14, or "A-box".
  • the ontology database 12 includes a concept database 16 and a role database 18, and the instance database 14 includes an instance database 20 relating to the concepts of the concept database 12
  • Each concept, role and instance is referenced in a unique way in the database, for example by a number, and associated in a unique way, for the purpose of formalization in a predetermined natural language, with at least one predetermined lexical unit of a database of lexical units 21.
  • concepts and roles are subject to a predetermined set of semantic constraints formulated in accordance with the description logic which is implemented by a logical core 22 having in particular the function of guarantee the integrity of the knowledge base 10 with regard to the description logic.
  • semantic constraints relating to the concepts and the roles of the databases of concepts 16 and of roles 18 are for example stored in a database of ontological constraints 23 and consist at least of constraints of definition of concepts as a function of atomic concepts, defining roles according to atomic roles, subsumption between concepts and subsumption between roles, the term atomic characterizing the concepts and elementary roles used for the definition of the other concepts and roles of the knowledge base 10.
  • An additional type of semantic constraints relates to both the concepts and the roles.
  • a role is a binary semantic relationship between a starting domain, designated "domain”, and an arrival domain, designated "range” in the technical field of building knowledge bases.
  • the starting domain and the ending domain are formalized by logical expressions, supported by the description logic, relating to the concepts of the concept database.
  • Instances of the instance database 20 are also subject to a predetermined set of constraints, stored for example in an assertion constraint database 26 of the instance database 14, constraints such as, in particular, assertions on concepts, that is to say the belonging of an instance to a concept, and assertions on roles, making it possible to link together instances of the instance database.
  • the knowledge base 10 also includes a database 24 of synonyms connected to the lexical unit database 21.
  • the database 24 consists of a predetermined set of synonyms of the lexical units used to formalize the concepts, the database roles, instances 16, 18, and 20 of concepts, roles, and instances.
  • the knowledge base 10 relating to the predetermined knowledge domain is connected to the knowledge base 11, hereinafter referred to as “interrogative” knowledge base which models, based on the predetermined description logic, the field of questioning.
  • the interrogative knowledge base 11 comprises a database of key lexical units relating to the interrogation 30, hereinafter designated lexicon. These key lexical units are made up of a predetermined set of constructors and markers. Constructors are made up of keywords and syntactic patterns representative of types of questions.
  • the key words are the interrogative pronouns, "qui”, “que”, “quoi”, “which”, “which”, etc., and the interrogative adverbs "when” , “Where”, “how much”, etc. , and the interrogative phrases “against whom", "with what”, etc.
  • the syntactic grounds are meanings specific to the field of interrogation such as “is-that-that", “is-there- does it ",” is it ", etc. and are used to identify the type of question submitted by a query made in natural language, by a user of knowledge base 8, as will be explained in more detail below . Markers are made up of keywords associated with syntactic relationships and carrying meaning with regard to semantics.
  • the key words markers consist of prepositions like "in front”, “behind”, “in”, “in”, etc., and prepositive phrases like “above”, “long after”, etc. ...
  • constructors and markers are used to only reveal the syntactic structure of an interrogative query and to assign to each word of it a syntactic role to remove ambiguities of a homonymic or synonymic order or to identify a syntactic relation, analogous to that of the query, in a text entering into the constitution of a textual database.
  • each builder keyword and lexicon marker 30 is associated with at least one concept and / or an “universal” atomic role in a database of concepts 32 and a role database 34 respectively, the universal term associated with a concept or a role qualifying the semantic fact that this concept or this role is substantially necessarily used for the modeling of any domain of knowledge.
  • the universal concepts it is possible to cite the concepts of place, date, person, object and event, the latter designating an object associated with any one of the four preceding concepts.
  • the constructor keywords are associated with atomic concepts which are objects of interrogation.
  • the concepts and roles of the knowledge base 11 are subject to a predetermined set of semantic constraints, for example stored in a constraint database 36.
  • the semantic constraints stored in the constraint database 36 relate in particular to the subsumption of concepts and roles of the knowledge base relating to domain 10 by concepts and roles of the interrogative knowledge base 11, if the concepts and roles of the knowledge base relating to the knowledge domain have not been defined by relation to the above-mentioned universal atomic concepts. It is recalled here that the notion of subsumption covers in a hierarchical classification of structured information belonging to a knowledge base, the logical action consisting in transferring one of the information, classified in a given category, in a more general category.
  • Another embodiment of the interrogative knowledge base 11 consists in directly associating the keywords of the lexicon 30 with the concepts, roles and instances of the knowledge base, without using the universal atomic concepts and roles, which makes it possible to dedicate the interrogative knowledge base specifically to the knowledge base relating to the knowledge domain.
  • This mode of implementation has the advantage of speeding up the extraction of data from the knowledge base 10.
  • knowledge bases are based on the universal atomic concepts previously described to model the knowledge domain so that it is not necessary to define the subsumption constraints between concepts and roles of the knowledge base 10 and the concepts and roles of the interrogative knowledge base 11.
  • the interrogative knowledge base 11 is then independent of the knowledge base relating to the domain and adapted to all the knowledge bases relating to a specific domain modeled according to universal atomic concepts and roles. Furthermore, each of the constructor keywords, which are representative of types of questions, is associated with at least one class of syntactic interrogation structures from a predetermined set of classes of syntactic interrogation structures to which a natural language query.
  • the predetermined set of classes of syntactic structures for interrogation comprises at least the classes of syntactic structures of interrogation of the response type: - “binary”, that is to say an interrogation structure conjecturing, according to a first aspect, on the existence of a semantic relationship contained in the request in natural language.
  • These are typically syntactic query structures with a qualitative response of the “yes” or “no” type, such as the structure of the query “Did Agassi play Rolland Garros? ", And syntactic query structures with quantitative responses, such as the structure of the query" How many games has Agassi played at Rolland Garros?
  • the database of syntactic query structures 38 further comprises, for each class, a predetermined set of syntactically syntactically equivalent query structures. These sets are for example used during a step of identifying the class of interrogation syntactic structures to which the request in natural language belongs.
  • the lexical units of lexicon 30 are formalized by lexical units based on a predetermined natural language for the purposes of querying the knowledge base relating to knowledge domain 10.
  • the structure and content of knowledge bases 10 and 11, except the databases of lexical units 21, synonyms 24 and lexicon 30, as well as the extraction process described below, are independent of the language natural used.
  • the set of concepts, roles and instances is referenced by a universal referent, an arbitrary number for example, and logically linked according to the rules of the description logic of the domain of the knowledge base, independently of any relation to a natural language.
  • the databases of lexical units 21, synonyms 24 and the lexicon 30 are removable and interchangeable with databases of lexical units, synonyms and a lexicon formulated in another natural language, so that the knowledge base relating to knowledge domain 10 can be queried in another natural language without this modifying either the structure, the arrangement of data, or the content of the other elements of knowledge bases 10 and 11, or even, in short, the process which is the subject of the invention.
  • the knowledge base relating to the knowledge domain 10 and the interrogative knowledge base 11 are connected to an interrogation module 40 capable of interrogating the knowledge base 10 by implementing the method which is the subject of the invention.
  • a semantic constraint defining the starting and ending domain of a role is a constraint on the role "a_Joué_à” is: “a_Joué_à” ⁇ (AND “Person” (OR “Joueur_de_Tennis” “Paire_Joueurs_de_Tennis”)) where "AND” and “OR” represent the logical operators AND and OR respectively.
  • a semantic assertion constraint on a concept is the membership of the “Agassi” instance in the concept
  • the process firstly consists in carrying out a lexical analysis of a request in natural language formulated by a user in order to identify lexical units associated with concepts, roles, times and keywords in the knowledge base.
  • the method identifies and eliminates non-meaningful words included in a predetermined set of words, such as definite and indefinite articles, conjunctions of subordination, etc.
  • the method then consists in testing, in a step 54, whether the remaining words of the request, that is to say the words carrying meaning, are supported by the knowledge bases 10 and 11, that is to say say exist in these. If so, the query in natural language is, by definition, said to be consistent with the knowledge base. If, on the contrary, the result of this test is negative, the user's request is rejected. If the test result is positive, a step 56 of identifying the concepts, roles, instances, keywords contained in the request in natural language is then triggered.
  • the method consists in determining the set of possible combinations of concepts, roles, instances and keywords of the knowledge base included in the query, for example by implementing a decision tree search algorithm which traverses the base of knowledge 8 in search of lexical units of the query which are associated with concepts, roles, instances and keywords of knowledge base 8.
  • the method thus generates a set of labeled queries made up of lexical units according to the words carrying meaning of the query in natural language, each of the lexical units being labeled by a concept, a role, an instance or a keyword of the knowledge base. Thereafter, a concept, a role, an instance or a keyword associated with a lexical unit is designated by the term "label" of the lexical unit.
  • the keyword marker "à” is associated with and followed by a concept of place or date, so that the queries labeled including the lexical unit "Paris” labeled by the instance “Paris_Roger” of the concept "Joueur_de Tennis_Homme” and corresponding to the tennis player named Roger Paris can be eliminated because the concept "Joueur_de TennisJHomme” is neither the concept “Date” nor the concept “Place” and is not subsumed by any of them .
  • the number of labeled requests used in the following steps of the method is then reduced, which consequently reduces the calculation time associated with the implementation of the method according to the invention.
  • all of the labeled requests are kept, which is particularly advantageous when the user has committed a syntax error in the request in natural language for example.
  • the method according to the invention is particularly flexible with regard to this type of fault, which allows, for example, a foreign user, whose lingua franca is not the language used to formalize the knowledge base, to be able to interrogate it by committing certain specific faults without this detracting from the relevance of the responses established using the method according to the invention, as will be described below.
  • the rejection or acceptance of a request is based solely on the ontology of the knowledge base relating to knowledge domain 10.
  • the process object of the invention then consists, in a step 58, in carrying out a sorting among the labeled requests.
  • Different predetermined forms of labeled requests are recognized by the process which is the subject of the invention which identifies the structure of each labeled request and eliminates those whose structure is not supported by the description logic used by the knowledge base.
  • a labeled request comprising two adjacent and labeled role-labeled lexical units is eliminated because it does not conform to the description logic.
  • step 60 determines a set of syntactic relations between the labeled lexical units, that is to say a set of relations which are formally correct from the point of view of the description logic used in the database. of knowledge, without for the moment being judged on their semantic meaning, that is to say ultimately of their existence as a semantic constraint coded in the knowledge base 10. More particularly, the process determines, for each labeled request, a set of elementary semantic units of at least two lexical units.
  • a second form of elementary semantic unit is a couple of distinct lexical units labeled by a concept or an instance which are likely to be linked by an unidentified role N, the labels of the lexical units and the unidentified role N checking together a configuration of the lexical unit triplet type ⁇ concept.role, concept ⁇ , ⁇ concept, role, instance ⁇ , ⁇ instance, role, concept ⁇ , ⁇ instance, role.instance ⁇ . It is particularly advantageous to consider such pairs of lexical units. Indeed a first lexical unit labeled by a concept or an instance is likely to be linked to a second lexical unit labeled by a concept or an instance by an implicit role, therefore unidentified, contained in the request in natural language.
  • step 62 of the method consists, for each labeled request, in identifying, at least one syntactic relationship between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of questions.
  • the process 62 first identifies to which class of interrogation syntactic structures belongs the request in natural language, and therefore also the labeled requests. This identification is carried out as a function of the constructor keywords and of the constructive syntactic patterns of the lexicon 30 contained in the request in natural language and of the syntactic structures of interrogation equivalent to the database of syntactic structures 38.
  • the process 64 identifies at least one syntactic relationship between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of question More particularly, when the labeled query belongs to the class of syntactic structures from interrogation to response: - binary: the interrogative logical constraint is a constraint on the existence of elementary semantic units and additionally, when the expected response is quantitative, a constraint on the number of times the existence of elementary semantic units is checked in the knowledge base these relating to knowledge area 10; - enumerative: the logical constraint relates to at least one target concept, which is selected as being that which is associated with the lexical unit labeled by the builder keyword or one of the concepts of the knowledge base relating to domain 10 subsumed by this one .
  • the concept of "person” therefore constitutes a target concept.
  • the concept “tennis-player” is subsumed by the concept “Person” and therefore also constitutes a possible target concept.
  • the method determines at least one target constraint triplet of the type ⁇ CI, R, C ⁇ nd ⁇ where Cl designates a concept C or an instance I, R a role and C d a target concept of interrogation equal to the concept associated with the builder keyword or a concept subsumed by it.
  • Concept C and instance I, realization of a concept C are a concept or a
  • the role R is a role labeling a lexical unit or subsuming the label of a lexical unit.
  • the next step 66 of the method is a step of validation, for each labeled request, of each of the elementary semantic units as a function of the constraints of the knowledge base, in order to obtain a set of semantic units elementary validated in the base of 5 knowledge.
  • the process of step 66 performs the validation of an elementary semantic unit differently depending on whether it is a triplet or a couple.
  • the semantic unit is a triplet, for example (PULCI, ULR, SULCI), where PUL and SULCI respectively designate the first and second 0 lexical unit labeled by a concept or an instance, and ULR designates the lexical unit labeled by a role
  • the triplet is validated if each of the pairs (PULCI, ULR) and (ULR, SULCI) is valid in knowledge base 10.
  • R designating the label of ULR - if PULCI is labeled by a concept C, the pair (PULCI, ULR) is validated if concept C is subsumed by the starting domain of R; - if PULCI is labeled by an instance I, the pair (PULCI, ULR) is validated if at least one concept C of the knowledge base, of which I is an instance, is subsumed by the starting domain of R; - if SULCI is labeled by a concept C, the pair (ULR, SULCI) is validated if concept C is subsumed by the arrival domain of R; and - if SULCI is labeled by an instance I, the pair (ULR, SULCI) is validated if at least one concept C of the knowledge base, of which I is an instance, is subsumed by the arrival domain of R.
  • process 66 If none of the pairs (PULCI, ULR) and (ULR, SULCI) is valid then the corresponding elementary semantic unit (PULCI, ULR, SULCI) is eliminated. If the couple (ULR, SULCI) is valid and the couple (PULCI, ULR) is invalid, process 66: - generates and validates a triplet (DDULR, ULR, SULCI), where DDULR is the starting domain of the role R ; and - determines if there is a role R1 of the knowledge base such that the triplet (PULCI, R1, DDULR) is valid and validates such a triplet if the role R1 exists.
  • the process - generates and validates a triplet (PULCI, R.DAULR), where DAULR is the arrival domain of the role R ; and - determines if there is an R2 role in the knowledge base such that the triplet (DAULR, R2.SULCI) is valid and validates such a triplet if the R2 role exists.
  • the elementary semantic unit is a couple, for example
  • process 66 validates the couple if there exists a role R of the knowledge base such as the triplet ( PULCI, R, SULCI) is valid. More specifically: -if PULCI and SULCI are labeled by concepts C and C respectively, the process 66 traverses the role database for the first time and selects, if it exists, a role R whose starting domain is the concept C and the arrival domain is the concept C. Process 66 then replaces the pair (PULCI, SULCI) with the triplet (PULCI, R.SULCI) and validates it.
  • the process 66 scans the role database a second time and selects, if it exists, a role R 'such that its starting domain subsumes the concept C and its domain d arrival subsumes concept C Process 66 then replaces the pair (PULCI, SULCI) with the triplet (PULCI, R ', SULCI) and validates it. Finally, if such a role R 'does not exist, the couple (PULCI, SULCI) is then eliminated. - if PULSI or SULCI is labeled by an instance I, the method repeats the process described above, considering instead of the lexical unit of label I, the concept C of which I is the most specific instance.
  • the method replaces the pair (PULCI, SULCI) with the triplet (PULCI, R.SULCI) and validates this triplet. If such a role R does not exist and if a role R 'as described above exists, the method replaces the pair (PULCI, SULCI) by the triplet (PULCI, R', SULCI), validates this triplet. It eliminates the couple (PULCI, SULCI) if such a role R 'does not exist.
  • triplets not explicitly contained in the request in natural language typically constitutes a type of extraction of semantic meaning in the request and makes it possible, by the introduction of this semantic indeterminism, to identify the semantic shortcuts formulated by the user.
  • An additional embodiment of the method according to the invention also consists in carrying out a sequence of valid triplets from an invalid triplet. For example, considering the triplet generated (PULCI, ULR, DAULR) described above, a triplet (DAULR, R ', C) is generated and validated, where R' denotes a role in the ontology database, the domain of which of departure is DAULR and the arrival domain C. It is then still possible to repeat the process for C.
  • the aforementioned iteration is advantageously limited to two successive stages of generation of triplets.
  • a symmetric sequence to that described above is produced for the triplet generated (DDULR, ULR, SULCI) described above by generating and validating a new triplet (C, R ', DDULR) from the domain of DDULR start of the role R.
  • the identification of the interrogation targets in particular for the syntactic structures of interrogation with enumerative and relational response, is carried out simultaneously at the stage of validation of the triplets.
  • the target constraints associated with the syntactic structure with relational response are selected among the validated triplets which contain a concept associated with the keyword constructor or a concept subsumed by this concept.
  • the syntactic and semantic analysis are performed simultaneously assuming the existence of at least one semantic relationship implicitly contained in the request in natural language. If no elementary semantic unit of the tagged request has been validated, process 66 rejects this request because it does not comply with the knowledge base. If no labeled request has a validated elementary semantic unit, the process 66 rejects the request formulated by the user because it does not comply with the knowledge base.
  • the next step 68 of the semantic analysis process is a validation step, for each labeled request, of the target interrogation constraints as a function of the validated elementary semantic units and / or of the knowledge base constraints, in order to obtain a set of validated interrogation targets.
  • the process 68 validates the target constraints according to their type: - if a target constraint is a constraint associated with a syntactic structure of interrogation with binary response, this is automatically validated because it relates to the existence of triplets; - if a target constraint is a constraint associated with a syntactic structure of interrogation with an enumerative response, it is validated if the concept that it brings into play is present in the validated semantic units, otherwise it is eliminated; and - if a target constraint is a constraint associated with a syntactic structure of interrogation with relational response, it is validated if the relation which it brings into play is valid and that its elements are present in the validated semantic units, otherwise the constraint target is eliminated.
  • process 68 rejects this request because it does not comply with the knowledge base. If no tagged request has a validated target constraint, the process 68 rejects the request formulated by the user because it does not comply with the knowledge base.
  • the method which is the subject of the invention then proceeds to extract the support data from the information sought from the knowledge base 10.
  • the process extracts, for each labeled request, instances conforming to validated elementary semantic units and form a list of extracted instances initially empty.
  • the process 70 extracts the conforming instances by successively considering: - the validated elementary semantic units labels (l, R, l ') of the type ⁇ instance, role, instance ⁇ : instances I and I' are added to the end of the list of extracted instances; - the validated elementary semantic units of labels (l, R, C) of the type ⁇ instance, role, concept ⁇ : the instances of C are added at the end of the list of extracted instances; - the validated elementary semantic units of labels (C, R, I) of the type ⁇ concept.role, instance ⁇ , the instances of C are added at the end of the list of extracted instances; and - the validated elementary semantic units of labels (C, R, C) of the type ⁇ concept, role, concept ⁇ : the instances of C and C are added to the end of the list of extracted instances, any instance common to C and C being added only once to
  • step 72 of the method performs, for each labeled request, a first filtering and generates a list of validated extracted instances. Any instance I of a concept C which is not present as many times in the list of extracted instances as the concept C is not present in the validated elementary semantic units is considered as incorrect and eliminated, if not it is added to the list of validated extracted instances.
  • the process then extracts, in a step 74, the response to the request formulated by the user. Process 74 returns as an answer the instances of the list of validated instances which satisfy the target constraints.
  • the method classifies the instances of the list of validated instances. Typically the process sorts the instances chronologically or alphabetically.
  • the method returns as a response a predetermined number of validated instances, for example the ten most recent. In another embodiment, the method returns the number of validated instances.

Abstract

The invention relates to a knowledge base for a predetermined area of knowledge comprising at least one ontological base (12) consisting of formalised concepts and functions which are exposed to a totality of semantic constraints formulated according to a predetermined description logic and an instance base (14) pertinent to the concepts. The inventive knowledge base also comprises a knowledge base (11) pertinent to an area of knowledge comprising at least one token base for creating a query consisting of representative key-words in the form of questions and syntactical patterns, the representative key-words in the form of questions being associated with a predetermined totality of classes of query syntactic structures and to a predetermined totality of concepts and query object functions. Said invention can be used for any natural language.

Description

Base de connaissances ontologique et procédé d'extraction d'informations à partir d'une requête en langage naturel. La présente invention concerne une base de connaissances relative à un domaine prédéterminé et un procédé d'extraction de données de celle-ci interrogée par une requête en langage naturel. Plus particulièrement, la présente invention concerne une base de connaissances relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques et une base d'instances relatives aux concepts. Plus particulièrement, la présente invention concerne un procédé d'extraction de données, d'une base de connaissances . comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes, une base d'instances relatives aux concepts et vérifiant les contraintes, et une base de mots-clefs relatifs au domaine et représentatifs de type de questions parmi un ensemble de type de questions à réponse valide et/ou de structures syntaxiques. Il existe dans l'état de la technique des procédés d'interrogation de bases de données textuelles. Dans le cas d'une base de données textuelles constituée des documents partagés sur le réseau Internet, les procédés d'interrogation consistent généralement à estimer la pertinence d'un document en se fondant sur le nombre de mots partagés entre la requête formulée par l'utilisateur et le document. Le problème posé par ce type de procédé est dû au fait de considérer les mots uniquement comme des objets sensiblement indépendants les uns des autres, et les documents partagés sur le réseau Internet comme des suites de mots. De ce fait, le nombre de documents fournis en réponse est généralement très important et, de manière typique, l'utilisateur espère trouver l'information qui l'intéresse en réalisant lui-même le tri parmi les réponses renvoyées. De manière classique, d'autres procédés tels que les procédés d'analyse de requêtes en langage naturel, réalisent une analyse syntaxique de la manière la plus exacte possible afin de lever des ambiguïtés dans le texte de la requête, par exemple des homonymies et/ou des synonymies, et/ou d'extraire des relations entre les mots de la requête pour permettre d'éliminer des documents non pertinents. Toutefois, ces procédés de l'état de la technique ne réalisent une analyse de la requête que du point de vue purement syntaxique et n'accèdent pas au sens sémantique de celle-ci. La liste des réponses renvoyées est généralement très importante, comprend de nombreux documents hors sujet et ces dernières peuvent échouer à révéler des documents importants du seul fait que ceux-ci ne sont pas présentés sous une bonne forme. Lorsque le domaine de connaissances relatif aux données est fermé, par exemple lorsqu'il porte sur un ensemble fini de données portant sur des vins, ou des musées, ou un sport, etc, il est possible de construire une modélisation sémantique du domaine, c'est-à-dire de définir un ensemble fini de concepts, un ensemble de relations sémantiques portant sur ceux-ci, ou « ontologie » du domaine, et un ensemble fini d'instances relatives aux concepts. On connaît des documents US-A 5 555 408 et US-A-5 995 955 une base de connaissances modélisant un domaine de connaissances. Cette base de connaissances consiste uniquement en une structuration de données du type « réseau de concepts ». Ce type de modélisation ne permet pas l'utilisation directe de calculs formels sur les données de la base de connaissances, une modélisation algorithmique supplémentaire étant de ce fait nécessaire afin d'exploiter celle-ci. Il existe des procédés d'interrogation de telles bases de connaissances, ci-après désignées par « bases ontologiques de connaissances », qui se fondent sur une analyse sémantique préliminaire des éléments de la question en fonction des relations sémantiques de la base de connaissances. Toutefois ce type de procédé consiste tout d'abord de manière classique à réaliser une analyse syntaxique précise et à rejeter des requêtes non formulées de façon satisfaisante du point de vue de la syntaxe utilisée, mais parfaitement valable du point de vue sémantique adopté dans la base ontologique connaissances. Ainsi, lorsqu'un procédé réalise un filtrage préliminaire des requêtes en langage naturel par analyse syntaxique, il manque de souplesse, et oblige de fait l'utilisateur à formuler sa requête sous la bonne forme, ce qui restreint a priori le domaine des réponses possibles. D'autres procédés connus consistent à corréler la requête à des questions préalablement enregistrées dans la base de connaissances associées à des réponses prédéterminées mémorisées dans la base de connaissances. Si une requête sémantiquement valide ne peut être corrélée à l'une de ces questions, ces procédés échouent à renvoyer une quelconque réponse. Le but de la présente invention est de résoudre les problèmes susmentionnés. Elle a pour objet un procédé d'extraction de données d'une base ontologique de connaissances qui, notamment, détermine un ensemble complet de relations structurellement viables dans l'ontologie à partir de la requête en langage naturel et qui détermine les réponses valides de la requête en éliminant les requêtes non sémantiquement supportées par la base ontologique de connaissances. Ainsi la probabilité d'échec de fourniture d'une réponse pertinente à la requête et la probabilité de fourniture d'une réponse non pertinente sont faibles puisque la pertinence d'une réponse est étudiée du point de vue de l'ontologie formalisée de la base de connaissances et ne dépend pas en pratique de la forme sous laquelle la requête est en définitive formulée selon les critères du langage naturel utilisé. En particulier, un autre objet de la présente invention est la mise en œuvre d'un procédé d'extraction de données et d'informations supportées par ces données d'une base de connaissances spécifique à un domaine quelconque, grâce à un mécanisme simulant un raisonnement logique, processus de recherche - décision, totalement indépendant du domaine considéré et de l'information recherchée. Un autre objet de la présente invention est la mise en œuvre d'un procédé d'extraction de données d'une base de connaissance sensiblement indépendant de la langue naturelle utilisée pour formuler la requête, pour des langues naturelles de syntaxe équivalente. A cet effet, la présente invention a pour objet un procédé d'extraction de données d'une base de connaissances relative à un domaine interrogée par une requête en langage naturel, la base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques formulées conformément à une logique de description prédéterminée, une base d'instances relatives aux concepts, et une base de mots-clefs relatifs au domaine et représentatifs de types de questions parmi un ensemble de type de questions et/ou de structures syntaxiques. Il est remarquable en ce qu'il comprend au moins les étapes : - d'analyse lexicale de la requête en langage naturel consistant à identifier les unités lexicales signifiantes de la requête et à étiqueter chacune des unités lexicales par au moins un concept, un rôle, une instance ou un mot- clef de la base de connaissances afin de générer au moins une requête étiquetée constituée d'unités lexicales étiquetées ; - d'analyse syntaxique de chacune de la au moins une requête étiquetée comprenant les étapes : -o de création d'unités sémantiques élémentaires constituées d'au moins deux unités lexicales étiquetées, chacune de ces unités lexicales étant étiquetée par un concept ou un rôle ou une instance, les concepts, rôles et instances associés . à chacune de ces unités sémantiques élémentaires vérifiant ensemble une configuration de n-uplet d'un ensemble prédéterminé de configurations de n-uplet ; et -° d'identification de cible consistant à identifier au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de question afin de déterminer au moins une contrainte cible d'interrogation vérifiant une question parmi l'ensemble de types de question ; - d'analyse sémantique de chaque requête étiquetée comprenant au moins les étapes : -° de validation de chacune des unités sémantiques élémentaires en fonction des contraintes de la base de connaissances, afin d'obtenir un ensemble d'unités sémantiques élémentaires validées ; -° de validation des contraintes cibles d'interrogation en fonction des unités sémantiques élémentaires validées associées et/ou des contraintes de la base de connaissances, afin d'obtenir un ensemble de cibles d'interrogation validées ; et - d'extraction de données consistant à extraire de la base de connaissances les instances de la base d'instances vérifiant les unités sémantiques élémentaires validées par l'intermédiaire des contraintes cibles validées. L'invention a également pour objet une base de connaissances relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques formulées conformément à une logique de description prédéterminée et une base d'instances relatives aux concepts, caractérisée en ce qu'elle comprend en outre une base de connaissances relative au domaine de connaissances comprenant au moins une base d'unités lexicales du type constructeur d'interrogation constituée de mots-clefs représentatifs de types de questions et de motifs syntaxiques, les mots-clefs représentatifs de types de question étant associés à un ensemble prédéterminé de classes de structures syntaxiques d'interrogation et à un ensemble prédéterminé de concepts et de rôles objets d'interrogation. La présente invention sera mieux comprise à la lecture de la description qui va suivre, uniquement donnée à titre d'exemple, et faite en relation aux dessins annexés dans lesquels : - la figure 1 est un diagramme schématique de la structure d'une base de connaissances selon l'invention associée à des moyens d'interrogation; et -la figure 2 est un organigramme des étapes du procédé selon l'invention. II va tout d'abord être décrit, en relation avec la figure 1 , de façon schématique la structure d'une base de connaissances selon l'invention. La base de connaissances 8 selon l'invention comprend une base de connaissances classique relative à un domaine de connaissances prédéterminé, référencée par le numéro 10, et une base de connaissances relative au domaine de l'interrogation, référencée par le numéro 11. La base de connaissances relative au domaine de connaissances 10 est une modélisation sémantique de celui-ci, réalisée en se fondant sur une logique de description prédéterminée supportant au moins la définition (désignée par le symbole s), la négation (désignée par le symbole -β), la subsomption (désignée par le symbole ç), la disjonction (désignée par le symbole u), la conjonction (désignée par le symbole n), la quantification universelle (désignée par le symbole V) et la quantification existentielle (désignée par le symbole 3). Cette base ontologique de connaissances 10 comprend de manière classique une base d'ontologie 12, ou « T-box », et une base d'instances 14, ou « A-box ». La base d'ontologie 12 comprend une base de données de concepts 16 et une base de données de rôles 18, et la base d'instances 14 comprend une base de données d'instances 20 relatives aux concepts de la base de données de concepts 12. Chaque concept, rôle et instance est référencé de manière unique dans la base de données, par exemple par un nombre, et associé de manière unique, dans un but de formalisation dans une langue naturelle prédéterminée, à au moins une unité lexicale prédéterminée d'une base de données d'unités lexicales 21. De manière classique, les concepts et les rôles sont soumis à un ensemble prédéterminé de contraintes sémantiques formulées conformément à la logique de description qui est mise en œuvre par un noyau logique 22 ayant notamment pour fonction de garantir l'intégrité de la base de connaissances 10 vis-à-vis de la logique de description. Ces contraintes sémantiques portant sur les concepts et les rôles des bases de données de concepts 16 et de rôles 18 sont par exemple stockées dans une base de données de contraintes d'ontologie 23 et consistent au moins en des contraintes de définition de concepts en fonction de concepts atomiques, de définition de rôles en fonction de rôles atomiques, de subsomption entre concepts et de subsomption entre rôles, le terme atomique caractérisant les concepts et les rôles élémentaires utilisés pour la définition des autres concepts et rôles de la base de connaissances 10. Un type supplémentaire de contraintes sémantiques porte à la fois sur les concepts et les rôles. De manière classique, un rôle est une relation sémantique binaire entre un domaine de départ, désigné « domain », et un domaine d'arrivée, désigné « range » dans le domaine technique de la construction des bases de connaissances. Le domaine de départ et le domaine d'arrivée sont formalisés par des expressions logiques, supportées par la logique de description, portant sur les concepts de la base de données de concepts. Les instances de la base de données d'instances 20 sont également soumises à un ensemble prédéterminé de contraintes, stocké par exemple dans une base de données de contraintes d'assertion 26 de la base d'instance 14, contraintes telles que, notamment, des assertions sur des concepts, c'est-à- dire l'appartenance d'une instance à un concept, et des assertions sur des rôles, permettant de relier entre elles des instances de la base de données d'instances. La base de connaissances 10 comprend également une base de données 24 de synonymes raccordées à la base de données d'unités lexicales 21. La base de données 24 est constituée d'un ensemble prédéterminé de synonymes des unités lexicales utilisées pour formaliser les concepts, les rôles et les instances des bases de données 16, 18 et 20 de concepts, de rôles et d'instances. D'une manière avantageuse, la base de connaissances 10 relative au domaine de connaissances prédéterminé est raccordée à la base de connaissances 11, ci-après désignée par base de connaissances « interrogative » qui modélise, en se fondant sur la logique de description prédéterminée, le domaine de l'interrogation. La base de connaissances interrogative 11 comprend une base de données d'unités lexicales clefs relatives à l'interrogation 30, ci-après désignée lexique. Ces unités lexicales clefs sont constituées d'un ensemble prédéterminé de constructeurs et de marqueurs. Les constructeurs sont constitués de mots-clefs et de motifs syntaxiques représentatifs de types de questions. Typiquement, pour une langue comme le français par exemple, les mots-clefs sont les pronoms interrogatifs, « qui », « que », « quoi », « lequel », «laquelle », etc., et les adverbes interrogatifs « quand », « où », « combien », etc. , et les locutions interrogatives « contre qui », « avec quoi », etc.... Les motifs syntaxiques sont quant à eux des motifs spécifiques au domaine de l'interrogation comme « est- ce-que », « y-a-t-il », « est-il », etc et sont utilisés pour identifier le type de question soumis par une requête formulée en langage naturel, par un utilisateur de la base de connaissances 8, comme cela sera expliqué plus en détail par la suite. Les marqueurs sont constitués de mots-clefs associés à des relations syntaxiques et porteurs de sens vis-à-vis de la sémantique. De façon typique, les mots-clefs marqueurs sont constitués de prépositions comme « devant », « derrière », « en », « dans », etc., et de locutions prépositives comme « au-dessus », « longtemps après », etc... De façon classique, les constructeurs et les marqueurs sont utilisés pour uniquement révéler la structure syntaxique d'une requête interrogative et attribuer à chaque mot de celle-ci un rôle syntaxique pour lever des ambiguïtés d'ordre homonymique ou synonymique ou identifier une relation syntaxique, analogue à celle de la requête, dans un texte entrant dans la constitution d'une base de données textuelles. Conformément à un premier mode de réalisation de la base de connaissances interrogative 11 , chaque mot-clef constructeur et marqueur du lexique 30 est associé à au moins un concept et/ou un rôle atomique « universel » d'une base de données de concepts 32 et d'une base de données de rôles 34 respectivement, le terme universel associé à un concept ou à un rôle qualifiant le fait sémantique que ce concept ou ce rôle est sensiblement nécessairement utilisé pour la modélisation d'un domaine quelconque de connaissances. Parmi les concepts universels, il est possible de citer les concepts de lieu, de date, de personne, d'objet et d'événement, ce dernier désignant un objet associé à l'un quelconque des quatre concepts précédents. De manière typique, les mots-clefs constructeurs sont associés à des concepts atomiques objets d'interrogation. Ainsi le pronom interrogatif « qui » est associé au concept atomique de « Personne », « quoi » au concept atomique de « Chose », « où » au concept atomique de « Lieu », « quand » au concept atomique de « Date », « combien » au concept atomique de « Quantité ». Certains mots-clefs sont associés à plusieurs concepts atomiques, comme par exemple le môt-clef marqueur « à » qui est associé aux concepts atomiques de « Lieu » et de « Date ». Certains mots-clefs peuvent également être associés à des rôles atomiques, comme par exemple, le mot-clef marqueur « à » ou le mot-clef constructeur « quand » qui sont associés au rôle atomique de « a_eu_Lieu à », désignant l'occurrence d'un concept et/ou une instance en un lieu ou à une date. Les concepts et les rôles de la base de connaissances 11 sont soumis à un ensemble prédéterminé de contraintes sémantiques, par exemple stocké dans une base de données de contraintes 36. Les contraintes sémantiques stockées dans la base de données de contraintes 36 portent notamment sur la subsomption de concepts et de rôles de la base de connaissances relative au domaine 10 par des concepts et des rôles de la base de connaissances interrogative 11 , si les concepts et rôles de la base de connaissances relative au domaine de connaissances n'ont pas été définis par rapport aux concepts atomiques universels sus-mentionnés. On rappelle ici que la notion de subsomption recouvre dans une classification hiérarchique d'informations structurée appartenant à une base de connaissances, l'action logique consistant à reporter une des informations, classée dans une catégorie donnée, dans une catégorie plus générale. Un autre mode de réalisation de la base de connaissances interrogative 11 consiste à associer directement les mots-clefs du lexique 30 aux concepts, rôles et instances de la base de connaissances, sans utiliser les concepts et les rôles atomiques universels, ce qui permet de dédier la base de connaissances interrogative spécifiquement à la base de connaissances relative au domaine de connaissances. Ce mode de mise en œuvre présente l'avantage d'accélérer l'extraction de données de la base de connaissances 10. De manière classique, les bases de connaissances se fondent sur les concepts atomiques universels précédemment décrits pour modéliser le domaine de connaissances de sorte qu'il n'est pas nécessaire de définir les contraintes de subsomption entre des concepts et des rôles de la base de connaissances 10 et des concepts et des rôles de la base de connaissances interrogative 11. De manière avantageuse, la base de connaissances interrogative 11 est alors indépendante de la base de connaissances relative au domaine et adaptée à toutes les bases de connaissances relative à un domaine spécifique modélisé selon les concepts et rôles atomiques universels. Par ailleurs, chacun des mots-clefs constructeurs, qui sont représentatifs de types de questions, est associé à au moins une classe de structures syntaxiques d'interrogation parmi un ensemble prédéterminé de classes de structures syntaxiques d'interrogation auxquelles est susceptible d'appartenir une requête en langage naturel. L'ensemble prédéterminé de classes de structures syntaxiques d'interrogation, par exemple stocké dans une base de données de structures syntaxiques d'interrogation 38, comprend au moins les classes de structures syntaxiques d'interrogation du type à réponse : - « binaire », c'est-à-dire une structure d'interrogation conjecturant, selon un premier aspect, sur l'existence d'une relation sémantique contenue dans la requête en langage naturel. Il s'agit typiquement des structures syntaxiques d'interrogation à réponse qualitative du type « oui » ou « non », comme par exemple la structure de la requête « Agassi a-t-il joué à Rolland Garros ? », et des structures syntaxiques d'interrogation à réponse quantitative, comme par exemple la structure de la requête « Combien de matchs Agassi a- t-il joué à Rolland Garros ?» dont le processus d'extraction de réponse associé consiste à renvoyer le nombre de fois où la relation sémantique entre Agassi, a joué et Rolland Garros est vérifiée ; - « énumérative », c'est-à-dire une structure d'interrogation conjecturant une réponse constituée d'au moins une instance d'un concept objet de l'interrogation, impliqué et identifié dans une relation sémantique avec un rôle et un concept ou une instance de la requête en langage naturel ; et - « relationnelle », c'est-à-dire une structure d'interrogation conjecturant une réponse constituée d'au moins une instance de concept satisfaisant à une contrainte sémantique entre un concept ou une instance et un rôle dont le domaine de départ subsume ce concept ou cette instance et dont le domaine d'arrivée subsume les instances de la réponse. De façon typique, les mots-clefs « qui », « que », « quoi », « quand » et « où » sont associés aux structures syntaxiques d'interrogation à réponse du type « énumérative » et « relationnelle », le mot-clef « combien » est associé à la structure syntaxique d'interrogation à réponse du type « binaire ». De manière avantageuse, la base de données de structures syntaxiques d'interrogation 38 comprend en outre, pour chaque classe, un ensemble prédéterminé de structures syntaxiques d'interrogation syntaxiquement équivalentes. Ces ensembles sont par exemple utilisés lors de d'une étape d'identification de la classe de structures syntaxiques d'interrogation à laquelle appartient la requête en langage naturel. De manière spécifique, les unités lexicales du lexique 30 sont formalisées par des unités lexicales se fondant sur une langue naturelle prédéterminée pour les besoins d'interrogation de la base de connaissances relative au domaine de connaissances 10. Cependant, comme il est possible de le constater, la structure et le contenu des bases de connaissances 10 et 11, hormis les bases de données d'unités lexicales 21, de synonymes 24 et le lexique 30, ainsi que le processus d'extraction décrit ci-après, sont indépendants de la langue naturelle utilisée. En effet, l'ensemble des concepts, rôles et instances est référencé par un référant universel, un nombre arbitraire par exemple, et logiquement reliés selon les règles de la logique de description du domaine de la base de connaissances, indépendamment de toute relation à un langage naturel. De manière avantageuse les bases de données d'unités lexicales 21 , de synonymes 24 et le lexique 30 sont amovibles et interchangeables avec des bases de données d'unités lexicales, de synonymes et un lexique formulés dans une autre langue naturelle, de sorte que la base de connaissances relative au domaine de connaissances 10 peut être interrogée dans une autre langue naturelle sans que cela ne modifie ni la structure, ni l'agencement de données, ni le contenu des autres éléments des bases de connaissances 10 et 11 , ni même, en définitive, le procédé objet de l'invention. Enfin, la base de connaissances relative au domaine de connaissances 10 et la base de connaissances interrogative 11 sont raccordées à un module 40 d'interrogation propres à, interroger la base de connaissances 10 en mettant en œuvre le procédé objet de l'invention. On comprend bien sûr que le nombre et la définition des concepts, rôles, instances, mots-clefs, contraintes, structures syntaxiques des bases de connaissances 10 et 11 dépendent du degré souhaité de finesse de modélisation des domaines de connaissance et interrogatif, de sorte que la taille et la complexité de chacune des bases 10 et 11 est fonction du degré de finesse précité. A des fins uniques d'illustration, on décrit une base de connaissances relative au domaine du tennis. Bien entendu, la structure de la base de connaissances et le procédé d'extraction de données selon l'invention sont totalement indépendants non seulement du type de données traitées, mais également de la nature de l'information supportée par celles-ci. On rappelle ici que les unités lexicales précitées peuvent être choisies arbitrairement, mais que celles-ci présentent pour l'utilisateur une valeur sémantiquement signifiante biunivoque en langage naturel. On comprend par exemple que le concept « Joueur_de_Tennis » peut être remplacé par toute valeur différente équivalente, par exemple « Joueur/de/Tennis » ou « Joueur de Tennis ». La base de connaissances donnée en exemple relative au domaine du tennis se fonde sur les concepts atomiques universels, de « Personnes », « Date », « Lieu », « Objet » et « Evénement ». * Pour le domaine du tennis, il est également possible de définir les concepts « Homme », « Joueur_de_Tennis », « Joueur_de_Tennis_Homme », « Paire_Joueurs_de_Tennis », « Tournois », « Match », « Vainqueur », «3 a_Gagné.Tournoi », etc.. Des rôles possibles sont « a_eu_Lieu_à », « a_eu_Lieu_le », « a_Battu », « a_Gagné », « a_pour_Joueur », « a_Joué_à », etc. Des instances possibles sont « Agassi » « Rolland_Garros », « Paris », « Rolland_Garros_2003 ». Par exemple, une contrainte sémantique de définition est la définition du concept « Vainqueur » selon la relation : « Vainqueur » = « Joueur_de_Tennis » n « 3 a_Gagné. Tournoi ». Une contrainte sémantique de subsomption de concept est par exemple la subsomption « Joueur_de_Tennis_Homme » ςzOntological knowledge base and method of extracting information from a query in natural language. The present invention relates to a knowledge base relating to a predetermined domain and to a method for extracting data from it interrogated by a request in natural language. More particularly, the present invention relates to a knowledge base relating to a predetermined domain of knowledge, this knowledge base comprising at least one ontology base consisting of concepts and formalized roles subject to a set of semantic constraints and a base of concept instances. More particularly, the present invention relates to a method for extracting data from a knowledge base. comprising at least one ontology base made up of formalized concepts and roles subject to a set of constraints, a base of instances relating to the concepts and verifying the constraints, and a base of keywords relating to the domain and representative of the type of questions from a set of valid answer question types and / or syntactic structures. There exist in the state of the art methods for interrogating textual databases. In the case of a textual database made up of documents shared on the Internet, the interrogation methods generally consist in estimating the relevance of a document based on the number of words shared between the request formulated by the user and document. The problem posed by this type of process is due to the fact of considering words only as objects which are substantially independent of one another, and documents shared on the Internet as sequences of words. Therefore, the number of documents provided in response is generally very large and, typically, the user hopes to find the information which interests him by carrying out himself the sorting among the returned responses. Conventionally, other methods such as natural language query analysis methods carry out a syntactic analysis in the most exact way possible in order to remove ambiguities in the text of the request, for example homonymies and / or synonymies, and / or to extract relations between the words of the request to allow to eliminate irrelevant documents. However, these prior art methods perform an analysis of the request only from the purely syntactic point of view and do not access the semantic sense of the latter. The list of returned responses is usually very large, includes many off-topic documents, and these may fail to reveal important documents simply because they are not presented in a good form. When the knowledge domain relating to data is closed, for example when it relates to a finite set of data relating to wines, or museums, or a sport, etc., it is possible to construct a semantic modeling of the domain, c that is, to define a finite set of concepts, a set of semantic relationships relating to these, or "ontology" of the domain, and a finite set of instances relating to the concepts. We know from documents US-A 5,555,408 and US-A-5,995,955 a knowledge base modeling a domain of knowledge. This knowledge base consists solely of data structuring of the “concept network” type. This type of modeling does not allow the direct use of formal calculations on the data in the knowledge base, an additional algorithmic modeling being therefore necessary in order to exploit it. There are methods of interrogating such knowledge bases, hereinafter referred to as "ontological knowledge bases", which are based on a preliminary semantic analysis of the elements of the question as a function of the semantic relationships of the knowledge base. However, this type of process consists first of all in a conventional manner of carrying out a precise syntactic analysis and of rejecting requests not formulated in a satisfactory manner from the point of view of the syntax used, but perfectly valid from the semantic point of view adopted in the database. ontological knowledge. Thus, when a process performs a preliminary filtering of requests in natural language by syntactic analysis, it lacks flexibility, and in fact forces the user to formulate his request in the right form, which a priori restricts the field of possible responses. . Other known methods consist in correlating the request to questions previously recorded in the knowledge base associated with predetermined answers stored in the knowledge base. If a semantically valid request cannot be correlated to one of these questions, these methods fail to return any response. The object of the present invention is to solve the above-mentioned problems. It relates to a process for extracting data from an ontological knowledge base which, in particular, determines a complete set of structurally viable relationships in the ontology from the query in natural language and which determines the valid responses of the query by eliminating the queries not semantically supported by the ontological knowledge base. Thus the probability of failure to provide a relevant response to the request and the probability of providing an irrelevant response are low since the relevance of a response is studied from the point of view of the formalized ontology of the base. of knowledge and does not depend in practice on the form in which the request is ultimately formulated according to the criteria of the natural language used. In particular, another object of the present invention is the implementation of a method of extracting data and information supported by these data from a knowledge base specific to any field, by means of a mechanism simulating a logical reasoning, research process - decision, totally independent of the domain considered and of the information sought. Another object of the present invention is the implementation of a method of extracting data from a knowledge base substantially independent of the natural language used to formulate the query, for natural languages of equivalent syntax. To this end, the subject of the present invention is a method of extracting data from a knowledge base relating to a domain interrogated by a query in natural language, the knowledge base comprising at least one ontology base consisting of concepts and formal roles subject to a set of semantic constraints formulated in accordance with a predetermined description logic, a base of instances relating to concepts, and a base of keywords relating to the domain and representative of types of questions among a set of types questions and / or syntactic structures. It is remarkable in that it comprises at least the steps: - of lexical analysis of the query in natural language consisting in identifying the signifying lexical units of the query and in labeling each of the lexical units by at least one concept, one role , an instance or a keyword of the knowledge base in order to generate at least one labeled request made up of labeled lexical units; - syntactic analysis of each of the at least one labeled request comprising the steps: -o of creation of elementary semantic units made up of at least two labeled lexical units, each of these lexical units being labeled by a concept or a role or an instance, the associated concepts, roles and instances . to each of these elementary semantic units together verifying a tuple configuration of a predetermined set of tuple configurations; and - ° of target identification consisting in identifying at least one syntactic relation between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of question in order to determine at least one target interrogation constraint verifying a question among the set of question types; - semantic analysis of each labeled request comprising at least the steps: - validation of each of the elementary semantic units according to the constraints of the knowledge base, in order to obtain a set of validated elementary semantic units; - validation of the target interrogation constraints as a function of the associated validated elementary semantic units and / or of the knowledge base constraints, in order to obtain a set of validated interrogation targets; and - data extraction consisting in extracting from the knowledge base the instances of the base of instances verifying the validated elementary semantic units via the validated target constraints. The subject of the invention is also a knowledge base relating to a predetermined domain of knowledge, this knowledge base comprising at least one ontology base consisting of formalized concepts and roles subject to a set of semantic constraints formulated in accordance with a logic of predetermined description and a base of instances relating to the concepts, characterized in that it further comprises a knowledge base relating to the field of knowledge comprising at least one base of lexical units of the interrogation constructor type consisting of words- keys representative of types of questions and syntactic patterns, the keywords representative of types of question being associated with a predetermined set of classes of syntactic structures of interrogation and with a predetermined set of concepts and roles object of interrogation. The present invention will be better understood on reading the description which follows, given solely by way of example, and made in relation to the appended drawings in which: - Figure 1 is a schematic diagram of the structure of a base of knowledge according to the invention associated with interrogation means; and FIG. 2 is a flow diagram of the steps of the method according to the invention. It will first be described, in relation to FIG. 1, schematically the structure of a knowledge base according to the invention. The knowledge base 8 according to the invention comprises a conventional knowledge base relating to a field of knowledge predetermined, referenced by the number 10, and a knowledge base relating to the domain of the query, referenced by the number 11. The knowledge base relating to the domain of knowledge 10 is a semantic modeling of it, carried out based on on a predetermined description logic supporting at least the definition (designated by the symbol s), the negation (designated by the symbol -β), the subsumption (designated by the symbol ç), the disjunction (designated by the symbol u), the conjunction (designated by the symbol n), the universal quantification (designated by the symbol V) and the existential quantification (designated by the symbol 3). This ontological knowledge base 10 conventionally comprises an ontology base 12, or "T-box", and an instance base 14, or "A-box". The ontology database 12 includes a concept database 16 and a role database 18, and the instance database 14 includes an instance database 20 relating to the concepts of the concept database 12 Each concept, role and instance is referenced in a unique way in the database, for example by a number, and associated in a unique way, for the purpose of formalization in a predetermined natural language, with at least one predetermined lexical unit of a database of lexical units 21. Conventionally, concepts and roles are subject to a predetermined set of semantic constraints formulated in accordance with the description logic which is implemented by a logical core 22 having in particular the function of guarantee the integrity of the knowledge base 10 with regard to the description logic. These semantic constraints relating to the concepts and the roles of the databases of concepts 16 and of roles 18 are for example stored in a database of ontological constraints 23 and consist at least of constraints of definition of concepts as a function of atomic concepts, defining roles according to atomic roles, subsumption between concepts and subsumption between roles, the term atomic characterizing the concepts and elementary roles used for the definition of the other concepts and roles of the knowledge base 10. An additional type of semantic constraints relates to both the concepts and the roles. Classically, a role is a binary semantic relationship between a starting domain, designated "domain", and an arrival domain, designated "range" in the technical field of building knowledge bases. The starting domain and the ending domain are formalized by logical expressions, supported by the description logic, relating to the concepts of the concept database. Instances of the instance database 20 are also subject to a predetermined set of constraints, stored for example in an assertion constraint database 26 of the instance database 14, constraints such as, in particular, assertions on concepts, that is to say the belonging of an instance to a concept, and assertions on roles, making it possible to link together instances of the instance database. The knowledge base 10 also includes a database 24 of synonyms connected to the lexical unit database 21. The database 24 consists of a predetermined set of synonyms of the lexical units used to formalize the concepts, the database roles, instances 16, 18, and 20 of concepts, roles, and instances. Advantageously, the knowledge base 10 relating to the predetermined knowledge domain is connected to the knowledge base 11, hereinafter referred to as “interrogative” knowledge base which models, based on the predetermined description logic, the field of questioning. The interrogative knowledge base 11 comprises a database of key lexical units relating to the interrogation 30, hereinafter designated lexicon. These key lexical units are made up of a predetermined set of constructors and markers. Constructors are made up of keywords and syntactic patterns representative of types of questions. Typically, for a language like French for example, the key words are the interrogative pronouns, "qui", "que", "quoi", "which", "which", etc., and the interrogative adverbs "when" , "Where", "how much", etc. , and the interrogative phrases "against whom", "with what", etc. The syntactic grounds are meanings specific to the field of interrogation such as "is-that-that", "is-there- does it "," is it ", etc. and are used to identify the type of question submitted by a query made in natural language, by a user of knowledge base 8, as will be explained in more detail below . Markers are made up of keywords associated with syntactic relationships and carrying meaning with regard to semantics. Typically, the key words markers consist of prepositions like "in front", "behind", "in", "in", etc., and prepositive phrases like "above", "long after", etc. ... In a classic way, constructors and markers are used to only reveal the syntactic structure of an interrogative query and to assign to each word of it a syntactic role to remove ambiguities of a homonymic or synonymic order or to identify a syntactic relation, analogous to that of the query, in a text entering into the constitution of a textual database. In accordance with a first embodiment of the interrogative knowledge base 11, each builder keyword and lexicon marker 30 is associated with at least one concept and / or an “universal” atomic role in a database of concepts 32 and a role database 34 respectively, the universal term associated with a concept or a role qualifying the semantic fact that this concept or this role is substantially necessarily used for the modeling of any domain of knowledge. Among the universal concepts, it is possible to cite the concepts of place, date, person, object and event, the latter designating an object associated with any one of the four preceding concepts. Typically, the constructor keywords are associated with atomic concepts which are objects of interrogation. Thus the interrogative pronoun "who" is associated with the atomic concept of "Person", "what" with the atomic concept of "Thing", "where" with the atomic concept of "Place", "when" with the atomic concept of "Date", "How much" to the atomic concept of "Quantity". Certain keywords are associated with several atomic concepts, such as for example the marker key marker "to" which is associated with the atomic concepts of "Place" and "Date". Certain keywords can also be associated with atomic roles, such as for example, the keyword marker "à" or the builder keyword "when" which are associated with the atomic role of "a_eu_Lieu à", designating the occurrence of a concept and / or an instance in a place or on a date. The concepts and roles of the knowledge base 11 are subject to a predetermined set of semantic constraints, for example stored in a constraint database 36. The semantic constraints stored in the constraint database 36 relate in particular to the subsumption of concepts and roles of the knowledge base relating to domain 10 by concepts and roles of the interrogative knowledge base 11, if the concepts and roles of the knowledge base relating to the knowledge domain have not been defined by relation to the above-mentioned universal atomic concepts. It is recalled here that the notion of subsumption covers in a hierarchical classification of structured information belonging to a knowledge base, the logical action consisting in transferring one of the information, classified in a given category, in a more general category. Another embodiment of the interrogative knowledge base 11 consists in directly associating the keywords of the lexicon 30 with the concepts, roles and instances of the knowledge base, without using the universal atomic concepts and roles, which makes it possible to dedicate the interrogative knowledge base specifically to the knowledge base relating to the knowledge domain. This mode of implementation has the advantage of speeding up the extraction of data from the knowledge base 10. Conventionally, knowledge bases are based on the universal atomic concepts previously described to model the knowledge domain so that it is not necessary to define the subsumption constraints between concepts and roles of the knowledge base 10 and the concepts and roles of the interrogative knowledge base 11. Advantageously, the interrogative knowledge base 11 is then independent of the knowledge base relating to the domain and adapted to all the knowledge bases relating to a specific domain modeled according to universal atomic concepts and roles. Furthermore, each of the constructor keywords, which are representative of types of questions, is associated with at least one class of syntactic interrogation structures from a predetermined set of classes of syntactic interrogation structures to which a natural language query. The predetermined set of classes of syntactic structures for interrogation, for example stored in a database of syntactic structures of interrogation 38, comprises at least the classes of syntactic structures of interrogation of the response type: - “binary”, that is to say an interrogation structure conjecturing, according to a first aspect, on the existence of a semantic relationship contained in the request in natural language. These are typically syntactic query structures with a qualitative response of the “yes” or “no” type, such as the structure of the query “Did Agassi play Rolland Garros? ", And syntactic query structures with quantitative responses, such as the structure of the query" How many games has Agassi played at Rolland Garros? "Whose associated response extraction process consists in returning the number of times the semantic relationship between Agassi, played and Rolland Garros is verified; - "enumerative", that is to say an interrogation structure conjecturing a response made up of at least one instance of a concept object of the interrogation, involved and identified in a semantic relationship with a role and a concept or an instance of the request in natural language; and - "relational", that is to say an interrogation structure conjecturing a response made up of at least one instance of concept satisfying a semantic constraint between a concept or an instance and a role whose starting domain subsumes this concept or this instance and whose destination domain subsumes the instances of the response. Typically, the key words "who", "that", "what", "when" and "where" are associated with syntactic interrogation-response types such as "enumerative" and "relational", the word- key "how much" is associated with the syntactic structure of interrogation with response of the type "binary". Advantageously, the database of syntactic query structures 38 further comprises, for each class, a predetermined set of syntactically syntactically equivalent query structures. These sets are for example used during a step of identifying the class of interrogation syntactic structures to which the request in natural language belongs. Specifically, the lexical units of lexicon 30 are formalized by lexical units based on a predetermined natural language for the purposes of querying the knowledge base relating to knowledge domain 10. However, as can be seen , the structure and content of knowledge bases 10 and 11, except the databases of lexical units 21, synonyms 24 and lexicon 30, as well as the extraction process described below, are independent of the language natural used. Indeed, the set of concepts, roles and instances is referenced by a universal referent, an arbitrary number for example, and logically linked according to the rules of the description logic of the domain of the knowledge base, independently of any relation to a natural language. Advantageously, the databases of lexical units 21, synonyms 24 and the lexicon 30 are removable and interchangeable with databases of lexical units, synonyms and a lexicon formulated in another natural language, so that the knowledge base relating to knowledge domain 10 can be queried in another natural language without this modifying either the structure, the arrangement of data, or the content of the other elements of knowledge bases 10 and 11, or even, in short, the process which is the subject of the invention. Finally, the knowledge base relating to the knowledge domain 10 and the interrogative knowledge base 11 are connected to an interrogation module 40 capable of interrogating the knowledge base 10 by implementing the method which is the subject of the invention. We understand of course that the number and definition of concepts, roles, instances, keywords, constraints, syntactic structures of knowledge bases 10 and 11 depend on the desired degree of finesse in modeling knowledge and interrogative domains, so that the size and complexity of each of the bases 10 and 11 is a function of the aforementioned degree of finesse. For the sole purpose of illustration, a knowledge base relating to the field of tennis is described. Of course, the structure of the knowledge base and the method of extracting data according to the invention are completely independent not only of the type of data processed, but also of the nature of the information supported by them. It is recalled here that the aforementioned lexical units can be chosen arbitrarily, but that these present for the user a semantically significant one-to-one value in natural language. It is understood, for example, that the concept "Joueur_de_Tennis" can be replaced by any equivalent different value, for example "Joueur / de / Tennis" or "Joueur de Tennis". The knowledge base given as an example relating to the field of tennis is based on the universal atomic concepts of "People", "Date", "Place", "Object" and "Event". * For the tennis field, it is also possible to define the concepts "Man", "Joueur_de_Tennis", "Joueur_de_Tennis_Homme", "Paire_Joueurs_de_Tennis", "Tournois", "Match", "Vainqueur", "3 a_Gagné.Tournoi", etc. Possible roles are "a_eu_Lieu_à", "a_eu_Lieu_le", "a_Battu", "a_Gagné", "a_pour_Joueur", "a_Joué_à", etc. Possible instances are "Agassi""Rolland_Garros","Paris","Rolland_Garros_2003". For example, a semantic definition constraint is the definition of the concept "Winner" according to the relation: "Winner" = "Joueur_de_Tennis" n "3 a_Gagné. Tournament ”. A semantic concept subsumption constraint is for example the subsumption "Joueur_de_Tennis_Homme" ςz
« Joueur_de_Tennis » ç « Personne ». Par exemple, une contrainte sémantique de définition du domaine de départ et d'arrivée d'un rôle est une contrainte sur le rôle « a_Joué_à » est : « a_Joué_à » ≡ (AND « Personne » (OR « Joueur_de_Tennis » « Paire_Joueurs_de_Tennis »)) où "AND" et "OR" représentent les opérateurs logiques ET et OU respectivement. Par exemple, une contrainte sémantique d'assertion sur un concept est l'appartenance de l'instance « Agassi » au concept"Tennis_ Player" ç "Person". For example, a semantic constraint defining the starting and ending domain of a role is a constraint on the role "a_Joué_à" is: "a_Joué_à" ≡ (AND "Person" (OR "Joueur_de_Tennis" "Paire_Joueurs_de_Tennis")) where "AND" and "OR" represent the logical operators AND and OR respectively. For example, a semantic assertion constraint on a concept is the membership of the “Agassi” instance in the concept
« Joueur_de_Tennis_Homme ». Une assertion sur un rôle est par exemple la relation entre l'instance « Agassi » et l'instance « Rolland_Garros_1999 » reliées par le rôle « a Gagné ». Le procédé objet de l'invention est maintenant décrit, en relation avec la figure 2. Le procédé consiste tout d'abord à réaliser une analyse lexicale d'une requête en langage naturel formulée par un utilisateur afin d'identifier des unités lexicales associées à des concepts, des rôles, des instantes et des mots- clefs de la base de connaissances. A cet effet, dans une étape 52, le procédé identifie et élimine les mots non porteurs de sens compris dans un ensemble prédéterminé de mots, comme les articles définis et indéfinis, les conjonctions de subordination, etc. Le procédé consiste ensuite à tester, dans une étape 54, si les mots restants de la requête, c'est-à-dire les mots porteurs de sens, sont supportés par les bases de connaissances 10 et 11 , c'est-à-dire existent dans celles-ci. Dans l'affirmative la requête en langage naturel est, par définition, dite cohérente avec la base de connaissances. Si, au contraire, le résultat de ce test est négatif, la requête de l'utilisateur est rejetée. Si le résultat du test est positif, une étape 56 d'identification des concepts, rôles, instances, mots-clefs contenus dans la requête en langage naturel est alors déclenchée. Le procédé consiste à déterminer l'ensemble des combinaisons possibles de concepts, rôles, instances et mots-clefs de la base de connaissances compris dans la requête, par exemple en mettant en œuvre un algorithme de recherche à arbre de décision qui parcourt la base de connaissances 8 à la recherche d'unités lexicales de la requête qui sont associées à des concepts, des rôles, des instances et des mots-clefs de la base de connaissances 8. Le procédé génère ainsi un ensemble de requêtes étiquetées constituées d'unités lexicales en fonction des mots porteurs de sens de la requête en langage naturel, chacune des unités lexicales étant étiquetée par un concept, un rôle, une instance ou un mot-clef de la base de connaissance. Par la suite, un concept, un rôle, une instance ou un mot-clef associé à une unité lexicale est désigné par le terme d' « étiquette » de l'unité lexicale. Par exemple, en considérant la requête en langage naturel « combien de joueurs gauchers Agassi a-t-il battus à Paris ? », plusieurs requêtes étiquetées d'unités lexicales étiquetées sont possibles en fonction des mots signifiants de la requête, comme illustré par le tableau 1. La première ligne du tableau 1 répertorie les mots signifiants de la requête en langage naturel, le mot « de » n'étant pas porteur de sens. La suite du tableau 1 répertorie et classe des unités lexicales possibles déduites par l'algorithme de recherche à arbre de décision en concepts, en rôles, instances et mots-clefs associés."Male_Tennis_ Player". An assertion on a role is for example the relation between the instance “Agassi” and the instance “Rolland_Garros_1999” linked by the role “won”. The process which is the subject of the invention is now described, in relation to FIG. 2. The process firstly consists in carrying out a lexical analysis of a request in natural language formulated by a user in order to identify lexical units associated with concepts, roles, times and keywords in the knowledge base. To this end, in a step 52, the method identifies and eliminates non-meaningful words included in a predetermined set of words, such as definite and indefinite articles, conjunctions of subordination, etc. The method then consists in testing, in a step 54, whether the remaining words of the request, that is to say the words carrying meaning, are supported by the knowledge bases 10 and 11, that is to say say exist in these. If so, the query in natural language is, by definition, said to be consistent with the knowledge base. If, on the contrary, the result of this test is negative, the user's request is rejected. If the test result is positive, a step 56 of identifying the concepts, roles, instances, keywords contained in the request in natural language is then triggered. The method consists in determining the set of possible combinations of concepts, roles, instances and keywords of the knowledge base included in the query, for example by implementing a decision tree search algorithm which traverses the base of knowledge 8 in search of lexical units of the query which are associated with concepts, roles, instances and keywords of knowledge base 8. The method thus generates a set of labeled queries made up of lexical units according to the words carrying meaning of the query in natural language, each of the lexical units being labeled by a concept, a role, an instance or a keyword of the knowledge base. Thereafter, a concept, a role, an instance or a keyword associated with a lexical unit is designated by the term "label" of the lexical unit. For example, considering the natural language query "How many left-handed players did Agassi beat in Paris?" », Several labeled queries of labeled lexical units are possible according to the signifying words of the request, as illustrated by table 1. The first line of table 1 lists the signifying words of the request in natural language, the word« of » not being meaningful. The rest of Table 1 lists and classifies possible lexical units deduced by the decision tree search algorithm into concepts, roles, instances and associated keywords.
Figure imgf000016_0001
4
Figure imgf000016_0001
4
Figure imgf000016_0002
) Unité combien joueurs Agassi a-t-il Paris i lexicale gauchers battus
Figure imgf000016_0002
) Unit how many players does Agassi have Paris i lexical beaten left-handers
Figure imgf000017_0001
Figure imgf000017_0001
Figure imgf000017_0002
Tableau 1
Figure imgf000017_0002
Table 1
Bien entendu, d'autres possibilités sont également utilisables. L'exemple développé ci-dessus illustre le fait que pour une requête en langage naturel, plusieurs combinaisons d'unités lexicales étiquetées, ou requêtes étiquetées, sont possibles. Dans un premier mode de mise en œuvre du procédé selon l'invention, certaines combinaisons peuvent être éliminées en fonction des mots-clefs marqueurs. Par exemple, le mot-clef marqueur « à » est associé à et suivi d'un concept de lieu ou de date, de sorte que les requêtes étiquetées comprenant l'unité lexicale « Paris » étiquetée par l'instance « Paris_Roger» du concept « Joueur_de Tennis_Homme » et correspondant au joueur de tennis nommé Roger Paris peut être éliminée car le concept « Joueur_de TennisJHomme » n'est ni le concept « Date », ni le concept « Lieu » et n'est subsume par aucun de ceux-ci. Le nombre de requêtes étiquetées utilisées dans les étapes suivantes du procédé est alors réduit, ce qui diminue par conséquent le temps de calcul associé à la mise en œuvre du procédé selon l'invention. Dans un second mode de réalisation, toutes les requêtes étiquetées sont gardées, ce qui est particulièrement avantageux lorsque l'utilisateur a commis une faute de syntaxe dans la requête en langage naturel par exemple. De manière générale, le procédé selon l'invention est particulièrement souple vis-à-vis de ce type de fautes, ce qui permet, par exemple, à un utilisateur étranger, dont la langue véhiculaire n'est pas la langue utilisée pour formaliser la base de connaissances, de pouvoir interroger celle-ci en commettant certaines fautes spécifiques sans que cela ne porte atteinte à la pertinence des réponses établies grâce au procédé selon l'invention, ainsi qu'il sera décrit ci- après. En effet, le rejet ou l'acceptation d'une requête se fonde uniquement sur l'ontologie de la base de connaissances relative au domaine de connaissances 10. Pour la mise en oeuvre d'un processus d'analyse syntaxique, le procédé objet de l'invention consiste ensuite, dans une étape 58, à effectuer un tri parmi les requêtes étiquetées. Différentes formes prédéterminées de requêtes étiquetées sont reconnues par le procédé objet de l'invention qui identifie la structure de chaque requête étiquetée et élimine celles dont la structure n'est pas supportée par la logique de description utilisée par la base de connaissances. De manière typique, une requête étiquetée comprenant deux unités lexicales étiquetées par un rôle et adjacentes est éliminée car non conforme à la logique de description. L'étape 60 suivante représentée en figure 2 consiste, pour chaque requête étiquetée, à générer un ensemble d'unités sémantiques élémentaires constituées d'au moins deux unités lexicales étiquetées vérifiant une configuration de triplet d'un ensemble prédéterminé de configurations de triplet. Le processus mis en oeuvre dans l'étape 60 détermine un ensemble de relations syntaxiques entre les unités lexicales étiquetées, c'est-à-dire un ensemble de relations qui sont formellement justes du point de vue de la logique de description utilisée dans la base de connaissances, sans que soit pour le moment porté un jugement sur leur signification sémantique, c'est-à-dire en définitive de leur existence comme contrainte sémantique codée dans la base de connaissances 10. Plus particulièrement, le processus détermine, pour chaque requête étiquetée, un ensemble d'unités sémantiques élémentaires d'au moins deux unités lexicales. Une première forme d'unité sémantique élémentaire est un triplet d'unités lexicales distinctes constitué de deux premières unités lexicales étiquetées par un concept et/ou une instance et d'une seconde unité lexicale étiquetée par un rôle qui relie les étiquettes des deux premières unités lexicales, c'est-à-dire un triplet d'unités lexicales dont les étiquettes vérifient ensemble une configuration du type {concept, rôle, concept}, {concept.rôle, instance}, {instance, rôle, concept}, {instance,rôle, instance}. Une seconde forme d'unité sémantique élémentaire est un couple d'unités lexicales distinctes étiquetées par un concept ou une instance qui sont susceptibles d'être reliées par un rôle non identifié N, les étiquettes des unités lexicales et le rôle non identifié N vérifiant ensemble une configuration du type triplet d'unité lexicale {concept.rôle, concept}, {concept, rôle, instance}, {instance, rôle, concept}, {instance, rôle.instance}. Il est particulièrement avantageux de considérer de tels couples d'unités lexicales. En effet une première unité lexicale étiquetée par un concept ou une instance est susceptible d'être reliée à une seconde unité lexicale étiquetée par un concept ou une instance par un rôle implicite, donc non identifié, contenu dans la requête en langage naturel. Par exemple, lorsque l'on considère la requête « qui a joué en finale contre Agassi à Paris ? », le rôle «a_Joué_contre » est explicitement apparent de par l'unité lexicale « a joué contre ». Toutefois, il existe un rôle implicite contenu dans la requête, à savoir le rôle « a Lieu à », entre l'unité lexicale « finale » étiquetée par l'instance « Finale » du concept « Match » et l'unité lexicale « Paris » étiquetée par l'instance « Paris » du concept « Lieu ». La recherche d'une relation sémantique implicitement incluse dans la requête en langage naturel, par l'introduction de l'indéterminisme associé au rôle non encore identifié constitue de manière typique, un type spécifique d'extraction de signification sémantique dans la requête. Ce processus est particulièrement avantageux, car d'une manière générale, l'utilisateur formulateur de requête réalise des raccourcis sémantiques qu'il est nécessaire d'identifier pour extraire le véritable objet de la requête. Dans l'exemple décrit ci-dessus, une requête sémantiquement bien formulée est effectivement « qui a joué au moins un match final du Tournois de Paris contre Agassi ? » et est généralement inconsciemment raccourcie en « qui a joué en finale contre Agassi à Paris ? ». L'étape 62 suivante du procédé consiste, pour chaque requête étiquetée, à identifier, au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de questions. Le processus 62 identifie tout d'abord à quelle classe de structures syntaxiques d'interrogation appartient la requête en langage naturel, et par conséquent également les requêtes étiquetées. Cette identification est réalisée en fonction des mots-clefs constructeurs et des motifs syntaxiques constructeurs du lexique 30 contenus dans la requête en langage naturel et des structures syntaxiques d'interrogation équivalentes de la base de données de structures syntaxiques 38. Ensuite, le processus 64 identifie au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de questions Plus particulièrement, lorsque la requête étiquetée appartient à la classe des structures syntaxiques d'interrogation à réponse : - binaire : la contrainte logique interrogative est une contrainte d'existence des unités sémantiques élémentaires et de façon supplémentaire, lorsque la réponse attendue est quantitative, une contrainte sur le nombre de fois où l'existence des unités sémantiques élémentaires est vérifiée dans la base de connaissances relative au domaine de connaissances 10 ; - énumérative : la contrainte logique porte sur au moins un concept cible, qui est sélectionné comme étant celui qui est associé à l'unité lexicale étiquetée par le mot-clef constructeur ou un des concepts de la base de connaissances relative au domaine 10 subsume par celui-ci . Par exemple, l'unité lexicale étiquetée par un "mot-clef constructeur de la requête « qui a gagné Rolland Garros en 1990 ? » et le mot « qui » qui est associé au concept « Personne ». Le concept « personne » constitue donc un concept cible. Par ailleurs, le concept « joueur-de-tennis » est subsume par le concept « Personne » et constitue donc également un concept cible possible. 5 - relationnelle : le procédé détermine au moins un triplet de contrainte cible du type {CI, R, Cιnd} où Cl désigne un concept C ou une instance I, R un rôle et C d un concept cible d'interrogation égal au concept associé au mot-clef constructeur ou un concept subsume par celui-ci. Le concept C et l'instance I, réalisation d'un concept C, sont un concept ou uneOf course, other possibilities can also be used. The example developed above illustrates the fact that for a natural language query, several combinations of labeled lexical units, or labeled queries, are possible. In a first embodiment of the method according to the invention, certain combinations can be eliminated as a function of the tag keywords. For example, the keyword marker "à" is associated with and followed by a concept of place or date, so that the queries labeled including the lexical unit "Paris" labeled by the instance "Paris_Roger" of the concept "Joueur_de Tennis_Homme" and corresponding to the tennis player named Roger Paris can be eliminated because the concept "Joueur_de TennisJHomme" is neither the concept "Date" nor the concept "Place" and is not subsumed by any of them . The number of labeled requests used in the following steps of the method is then reduced, which consequently reduces the calculation time associated with the implementation of the method according to the invention. In a second embodiment, all of the labeled requests are kept, which is particularly advantageous when the user has committed a syntax error in the request in natural language for example. In general, the method according to the invention is particularly flexible with regard to this type of fault, which allows, for example, a foreign user, whose lingua franca is not the language used to formalize the knowledge base, to be able to interrogate it by committing certain specific faults without this detracting from the relevance of the responses established using the method according to the invention, as will be described below. Indeed, the rejection or acceptance of a request is based solely on the ontology of the knowledge base relating to knowledge domain 10. For the implementation of a syntactic analysis process, the process object of the invention then consists, in a step 58, in carrying out a sorting among the labeled requests. Different predetermined forms of labeled requests are recognized by the process which is the subject of the invention which identifies the structure of each labeled request and eliminates those whose structure is not supported by the description logic used by the knowledge base. Typically, a labeled request comprising two adjacent and labeled role-labeled lexical units is eliminated because it does not conform to the description logic. The next step 60 represented in FIG. 2 consists, for each labeled request, of generating a set of elementary semantic units made up of at least two labeled lexical units verifying a triplet configuration of a predetermined set of triplet configurations. The process implemented in step 60 determines a set of syntactic relations between the labeled lexical units, that is to say a set of relations which are formally correct from the point of view of the description logic used in the database. of knowledge, without for the moment being judged on their semantic meaning, that is to say ultimately of their existence as a semantic constraint coded in the knowledge base 10. More particularly, the process determines, for each labeled request, a set of elementary semantic units of at least two lexical units. A first form of elementary semantic unit is a triplet of distinct lexical units consisting of two first lexical units labeled by a concept and / or an instance and a second lexical unit labeled by a role which links the labels of the first two units lexical, that is to say a triplet of lexical units whose labels together verify a configuration of the type {concept, role, concept}, {concept.rôle, instance}, {instance, role, concept}, {instance , role, instance}. A second form of elementary semantic unit is a couple of distinct lexical units labeled by a concept or an instance which are likely to be linked by an unidentified role N, the labels of the lexical units and the unidentified role N checking together a configuration of the lexical unit triplet type {concept.role, concept}, {concept, role, instance}, {instance, role, concept}, {instance, role.instance}. It is particularly advantageous to consider such pairs of lexical units. Indeed a first lexical unit labeled by a concept or an instance is likely to be linked to a second lexical unit labeled by a concept or an instance by an implicit role, therefore unidentified, contained in the request in natural language. For example, when considering the request "who played in the final against Agassi in Paris?"", The role" a_Joué_contre "is explicitly apparent from the lexical unit" played against ". However, there is an implicit role contained in the request, namely the role “a Lieu à”, between the “final” lexical unit labeled by the “Final” instance of the “Match” concept and the “Paris” lexical unit "Labeled by the" Paris "authority of the" Place "concept. The search for a semantic relationship implicitly included in the request in natural language, by the introduction of the indeterminism associated with the role not yet identified, typically constitutes a specific type of extraction of semantic meaning in the request. This process is particularly advantageous, because in general, the query formulator user performs shortcuts semantics that it is necessary to identify in order to extract the real object of the request. In the example described above, a semantically well formulated request is effectively “who played at least one final match of the Paris Tournament against Agassi? "And is generally unconsciously shortened to" who played in the final against Agassi in Paris? ". The following step 62 of the method consists, for each labeled request, in identifying, at least one syntactic relationship between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of questions. The process 62 first identifies to which class of interrogation syntactic structures belongs the request in natural language, and therefore also the labeled requests. This identification is carried out as a function of the constructor keywords and of the constructive syntactic patterns of the lexicon 30 contained in the request in natural language and of the syntactic structures of interrogation equivalent to the database of syntactic structures 38. Next, the process 64 identifies at least one syntactic relationship between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of question More particularly, when the labeled query belongs to the class of syntactic structures from interrogation to response: - binary: the interrogative logical constraint is a constraint on the existence of elementary semantic units and additionally, when the expected response is quantitative, a constraint on the number of times the existence of elementary semantic units is checked in the knowledge base these relating to knowledge area 10; - enumerative: the logical constraint relates to at least one target concept, which is selected as being that which is associated with the lexical unit labeled by the builder keyword or one of the concepts of the knowledge base relating to domain 10 subsumed by this one . For example, the lexical unit labeled with a " query builder keyword" which has won Rolland Garros in 1990? And the word "who" which is associated with the concept "Person". The concept of "person" therefore constitutes a target concept. In addition, the concept “tennis-player” is subsumed by the concept “Person” and therefore also constitutes a possible target concept. 5 - relational: the method determines at least one target constraint triplet of the type {CI, R, Cι nd } where Cl designates a concept C or an instance I, R a role and C d a target concept of interrogation equal to the concept associated with the builder keyword or a concept subsumed by it. Concept C and instance I, realization of a concept C, are a concept or a
10 instance étiquette d'une unité lexicale de la requête, ou bien un concept ou une instance d'un concept subsumant une étiquette d'une unité lexicale de la requête. Le rôle R est un rôle étiquetant une unité lexicale ou subsumant l'étiquette d'une unité lexicale. A la suite du processus d'analyse syntaxiques exécuté par la mise l'invention, un ensemble de relations, c'est-à-dire des triplets, des couples et des contraintes cibles, ont été générées pour chaque requête étiquetée. Le procédé selon l'invention consiste ensuite à analyser sémantiquement chaque requête étiquetée, à partir des étapes 66 et 6810 label instance of a lexical unit of the query, or a concept or instance of a concept subsuming a label of a lexical unit of the query. The role R is a role labeling a lexical unit or subsuming the label of a lexical unit. Following the parsing process performed by the setting the invention, a set of relations, that is to say triplets, couples and target constraints, were generated for each labeled request. The method according to the invention then consists in semantically analyzing each labeled request, from steps 66 and 68
20 représentées en figure 2. L'étape 66 suivante du procédé est une étape de validation, pour chaque requête étiquetée, de chacune des unités sémantiques élémentaires en fonction des contraintes de la base de connaissances, afin d'obtenir un ensemble d'unités sémantiques élémentaires validées dans la base de 5 connaissances. Le processus de l'étape 66 réalise la validation d'une unité sémantique élémentaire différemment selon qu'il s'agit d'un triplet ou d'un couple. Lorsque l'unité sémantique est un triplet, par exemple (PULCI, ULR, SULCI), où PUL et SULCI désignent respectivement la première et seconde 0 unité lexicale étiquetée par un concept ou une instance, et ULR désigne l'unité lexicale étiquetée par un rôle, le triplet est validé si chacun des couples (PULCI, ULR) et (ULR, SULCI) est valide dans la base de connaissances 10. Plus particulièrement, R désignant l'étiquette de ULR : - si PULCI est étiquetée par un concept C, le couple (PULCI, ULR) est validé si le concept C est subsume par le domaine de départ de R ; - si PULCI est étiqueté par une instance I, le couple (PULCI, ULR) est validé si au moins un concept C de la base de connaissances, dont I est une instance, est subsume par le domaine de départ de R ; - si SULCI est étiquetée par un concept C, le couple (ULR, SULCI) est validé si le concept C est subsume par le domaine d'arrivée de R ; et - si SULCI est étiqueté par une instance I, le couple (ULR, SULCI) est validé si au moins un concept C de la base de connaissances, dont I est une instance, est subsume par le domaine d'arrivée de R. Si aucun des couples (PULCI, ULR) et (ULR, SULCI) n'est valide alors l'unité sémantique élémentaire correspondante (PULCI, ULR, SULCI) est éliminée. Si le couple (ULR, SULCI) est valide et le couple (PULCI, ULR) est non valide, le processus 66 : - génère et valide un triplet (DDULR, ULR, SULCI), où DDULR est le domaine de départ du rôle R ; et - détermine s'il existe un rôle R1 de la base de connaissances tel que le triplet (PULCI, R1, DDULR) est valide et valide un tel triplet si le rôle R1 existe. Si le couple (PULCI, ULR) est valide et le couple (ULR, SULCI) est non valide, le procédé : - génère et valide un triplet (PULCI, R.DAULR), où DAULR est le domaine d'arrivée du rôle R ; et - détermine s'il existe un rôle R2 de la base de connaissances tel que le triplet (DAULR, R2.SULCI) est valide et valide un tel triplet si le rôle R2 existe. Lorsque l'unité sémantique élémentaire est un couple, par exemple20 represented in FIG. 2. The next step 66 of the method is a step of validation, for each labeled request, of each of the elementary semantic units as a function of the constraints of the knowledge base, in order to obtain a set of semantic units elementary validated in the base of 5 knowledge. The process of step 66 performs the validation of an elementary semantic unit differently depending on whether it is a triplet or a couple. When the semantic unit is a triplet, for example (PULCI, ULR, SULCI), where PUL and SULCI respectively designate the first and second 0 lexical unit labeled by a concept or an instance, and ULR designates the lexical unit labeled by a role, the triplet is validated if each of the pairs (PULCI, ULR) and (ULR, SULCI) is valid in knowledge base 10. More particularly, R designating the label of ULR: - if PULCI is labeled by a concept C, the pair (PULCI, ULR) is validated if concept C is subsumed by the starting domain of R; - if PULCI is labeled by an instance I, the pair (PULCI, ULR) is validated if at least one concept C of the knowledge base, of which I is an instance, is subsumed by the starting domain of R; - if SULCI is labeled by a concept C, the pair (ULR, SULCI) is validated if concept C is subsumed by the arrival domain of R; and - if SULCI is labeled by an instance I, the pair (ULR, SULCI) is validated if at least one concept C of the knowledge base, of which I is an instance, is subsumed by the arrival domain of R. If none of the pairs (PULCI, ULR) and (ULR, SULCI) is valid then the corresponding elementary semantic unit (PULCI, ULR, SULCI) is eliminated. If the couple (ULR, SULCI) is valid and the couple (PULCI, ULR) is invalid, process 66: - generates and validates a triplet (DDULR, ULR, SULCI), where DDULR is the starting domain of the role R ; and - determines if there is a role R1 of the knowledge base such that the triplet (PULCI, R1, DDULR) is valid and validates such a triplet if the role R1 exists. If the couple (PULCI, ULR) is valid and the couple (ULR, SULCI) is invalid, the process: - generates and validates a triplet (PULCI, R.DAULR), where DAULR is the arrival domain of the role R ; and - determines if there is an R2 role in the knowledge base such that the triplet (DAULR, R2.SULCI) is valid and validates such a triplet if the R2 role exists. When the elementary semantic unit is a couple, for example
(PULCI, SULCI), où PULCI et SULCI désignent respectivement la première et la seconde unité lexicale étiquetée par un concept ou une instance, le processus 66 valide le couple s'il existe un rôle R de la base de connaissances tel que le triplet (PULCI, R, SULCI) est valide. Plus particulièrement : -si PULCI et SULCI sont étiquetées par des concepts C et C respectivement, le processus 66 parcourt une première fois la base de données de rôle et sélectionne, s'il existe, un rôle R dont le domaine de départ est le concept C et le domaine d'arrivée est le concept C. Le processus 66 remplace alors le couple (PULCI, SULCI) par le triplet (PULCI, R.SULCI) et valide celui-ci. Si un tel rôle R n'existe pas, le processus 66 parcourt une seconde fois la base de données de rôle et sélectionne, s'il existe, un rôle R' tel que son domaine de départ subsume le concept C et son domaine d'arrivée subsume le concept C Le processus 66 remplace alors le couple (PULCI, SULCI) par le triplet (PULCI, R', SULCI) et valide celui-ci. Enfin si un tel rôle R' n'existe pas, le couple (PULCI, SULCI) est alors éliminé. - si PULSI ou SULCI est étiquetée par une instance I, le procédé réitère le processus décrit ci-dessus en considérant à la place de l'unité lexicale d'étiquette I, le concept C dont I est l'instance la plus spécifique. Si un rôle R tel que décrit ci-dessus existe, le procédé remplace le couple (PULCI, SULCI) par le triplet (PULCI, R.SULCI) et valide ce triplet. Si un tel rôle R n'existe pas et si un rôle R' tel que décrit ci-dessus existe, le procédé remplace le couple (PULCI, SULCI) par le triplet (PULCI, R', SULCI), valide ce triplet. Il élimine le couple (PULCI, SULCI) si un tel rôle R' n'existe pas. La formation de triplets non explicitement contenus dans la requête en langage naturel constitue de manière typique un type d'extraction de signification sémantique dans la requête et permet, par l'introduction de cet indéterminisme sémantique, d'identifier les raccourcis sémantiques formulés par l'utilisateur. Un mode de réalisation supplémentaire du procédé selon l'invention consiste, par ailleurs, à réaliser un enchaînement de triplets valides à partir d'un triplet invalide. Par exemple, en considérant le triplet généré (PULCI, ULR, DAULR) décrit ci-dessus, un triplet (DAULR, R', C) est généré et validé, où R' désigne un rôle de la base d'ontologie dont le domaine de départ est DAULR et le domaine d'arrivée C. Il est alors encore possible de réitérer le processus pour C. De manière préférentielle, l'itération précitée est limitée avantageusement à deux étapes successives de génération de triplets. D'une manière analogue, un enchaînement symétrique à celui décrit ci-dessus est réalisé pour le triplet généré (DDULR, ULR, SULCI) décrit précédemment en générant et validant un nouveau triplet (C, R', DDULR) à partir du domaine de départ DDULR du rôle R. Dans un autre mode de réalisation, l'identification des cibles d'interrogation, notamment pour les structures syntaxiques d'interrogation à réponse énumérative et relationnelle, est réalisé de manière simultanée à l'étape de validation des triplets. Les contraintes cibles associées à la structure syntaxique à réponse relationnelle, sont sélectionnées parmi les triplets validés qui contiennent un concept associé au mot-clef constructeur ou un concept subsume par ce concept. Dans ce mode de réalisation, l'analyse syntaxique et sémantique sont réalisées de manière simultanée en supposant l'existence d'au moins une relation sémantique implicitement contenue dans la requête en langage naturel. Si aucune unité sémantique élémentaire de la requête étiquetée n'a été validée, le processus 66 rejette cette requête, car celle-ci est non conforme à la base de connaissances. Si aucune requête étiquetée ne présente d'unité sémantique élémentaire validée, le processus 66 rejette la requête formulée par l'utilisateur car celle-ci est non conforme à la base de connaissances. L'étape 68 suivante du processus d'analyse sémantique est une étape de validation, pour chaque requête étiquetée, des contraintes cibles d'interrogation en fonction des unités sémantiques élémentaires validées et/ou des contraintes de la base de connaissances, afin d'obtenir un ensemble de cibles d'interrogation validées. Le processus 68 valide les contraintes cibles en fonction de leur type : - si une contrainte cible est une contrainte associée à une structure syntaxique d'interrogation à réponse binaire, celle-ci est automatiquement validée car elle porte sur l'existence des triplets; - si une contrainte cible est une contrainte associée à une structure syntaxique d'interrogation à réponse énumérative, elle est validée si le concept qu'elle met en jeu est présent dans les unités sémantiques validées, sinon elle est éliminée ; et - si une contrainte cible est une contrainte associée à une structure syntaxique d'interrogation à réponse relationnelle, elle est validée si la relation qu'elle met en jeu est valide et que ses éléments sont présents dans les unités sémantiques validées, sinon la contrainte cible est éliminée. Si aucune contrainte cible n'a été validée pour la requête étiquetée, le processus 68 rejette cette requête car celle-ci est non conforme à la base de connaissances. Si aucune requête étiquetée ne présente de contrainte cible validée, le processus 68 rejette la requête formulée par l'utilisateur car celle-ci est non conforme à la base de connaissances. Lorsque les unités sémantiques élémentaires et les contraintes cibles ont été validées, le procédé objet de l'invention procède ensuite à l'extraction des données support des informations recherchées de la base de connaissances 10. Dans une étape 70, le processus extrait, pour chaque requête étiquetée, les instances conformes aux unités sémantiques élémentaires validées et forme une liste d'instances extraites initialement vide. Plus particulièrement, en désignant les étiquettes des unités sémantiques élémentaires validées par C et C pour deux concepts, R pour un rôle, I et I' pour deux instances, le processus 70 extrait les instances conformes en considérant successivement : - les unités sémantiques élémentaires validées d'étiquettes (l,R,l') du type {instance, rôle, instance} : les instances I et I' sont ajoutées à la fin de la liste d'instances extraites ; - les unités sémantiques élémentaires validées d'étiquettes (l,R,C) du type {instance,rôle, concept} : les instances de C sont ajoutées à la fin de la liste d'instances extraites ; - les unités sémantiques élémentaires validées d'étiquettes (C,R,I) du type {concept.rôle, instance}, les instances de C sont ajoutées à la fin de la liste d'instances extraites ; et - les unités sémantiques élémentaires validées d'étiquettes (C,R,C) du type {concept,rôle,concept} : les instances de C et de C sont ajoutées à la fin de la liste d'instances extraites, toute instance commune à C et C étant ajoutée une seule fois à la fin de la liste. Comme on pourra le constater, une instance peut apparaître plusieurs fois dans la liste d'instances extraites. L'étape 72 suivante du procédé réalise, pour chaque requête étiquetée, un premier filtrage et génère une liste d'instances extraites validées. Toute instance I d'un concept C qui n'est pas présente autant de fois dans la liste d'instances extraites que le concept C n'est présent dans les unités sémantiques élémentaires validées est considérée comme incorrecte et éliminée, sinon elle est ajoutée à la liste d'instances extraites validées. Le processus extrait ensuite, dans une étape 74, la réponse à la requête formulée par l'utilisateur. Le processus 74 renvoie comme réponse les instances de la liste d'instances validées qui satisfont aux contraintes cibles. Si les triplets validés n'ont permis d'extraire aucune instance, ou si les contraintes cibles ne renvoient aucune instance, cela signifie que la réponse à la requête formulée par l'utilisateur n'est pas présente dans la base de connaissances. En effet, des contraintes cibles et des unités sémantiques élémentaires ayant été validées, cela signifie que la requête formulée par l'utilisateur à un sens dans la base de connaissances. Une telle situation peut par exemple correspondre à une requête erronée, dans laquelle la question en langage naturel de savoir si un joueur de tennis féminin a gagné le tournoi masculin, lexicalement et syntaxiquement correcte, ne peut comporter de réponse sémantique conforme, sauf à prévoir une compétition toute catégorie de genres confondus. Enfin, dans une étape 76, le procédé réalise une classification des instances de la liste d'instances validées. De façon typique le procédé trie par ordre chronologique ou par ordre alphabétique les instances. Dans un autre mode de réalisation, le procédé renvoie comme réponse un nombre prédéterminé d'instances validées, par exemple les dix plus récentes. Dans un autre mode de réalisation, le procédé renvoie le nombre d'instances validées. On a ainsi décrit un procédé et un système d'extraction de données support d'informations se fondant sur la création de triplets ou de couples d'unités lexicales à partir d'une requête. Il est également possible de créer des unités sémantiques de dimension supérieure, pour prendre en compte par exemple des relations sémantiques portant sur plus de trois éléments. Les étapes associées du procédé se déduisent alors simplement de celles-décrites ci-dessus. (PULCI, SULCI), where PULCI and SULCI respectively designate the first and the second lexical unit labeled by a concept or an instance, process 66 validates the couple if there exists a role R of the knowledge base such as the triplet ( PULCI, R, SULCI) is valid. More specifically: -if PULCI and SULCI are labeled by concepts C and C respectively, the process 66 traverses the role database for the first time and selects, if it exists, a role R whose starting domain is the concept C and the arrival domain is the concept C. Process 66 then replaces the pair (PULCI, SULCI) with the triplet (PULCI, R.SULCI) and validates it. If such a role R does not exist, the process 66 scans the role database a second time and selects, if it exists, a role R 'such that its starting domain subsumes the concept C and its domain d arrival subsumes concept C Process 66 then replaces the pair (PULCI, SULCI) with the triplet (PULCI, R ', SULCI) and validates it. Finally, if such a role R 'does not exist, the couple (PULCI, SULCI) is then eliminated. - if PULSI or SULCI is labeled by an instance I, the method repeats the process described above, considering instead of the lexical unit of label I, the concept C of which I is the most specific instance. If a role R as described above exists, the method replaces the pair (PULCI, SULCI) with the triplet (PULCI, R.SULCI) and validates this triplet. If such a role R does not exist and if a role R 'as described above exists, the method replaces the pair (PULCI, SULCI) by the triplet (PULCI, R', SULCI), validates this triplet. It eliminates the couple (PULCI, SULCI) if such a role R 'does not exist. The formation of triplets not explicitly contained in the request in natural language typically constitutes a type of extraction of semantic meaning in the request and makes it possible, by the introduction of this semantic indeterminism, to identify the semantic shortcuts formulated by the user. An additional embodiment of the method according to the invention also consists in carrying out a sequence of valid triplets from an invalid triplet. For example, considering the triplet generated (PULCI, ULR, DAULR) described above, a triplet (DAULR, R ', C) is generated and validated, where R' denotes a role in the ontology database, the domain of which of departure is DAULR and the arrival domain C. It is then still possible to repeat the process for C. Preferably, the aforementioned iteration is advantageously limited to two successive stages of generation of triplets. In a similar way, a symmetric sequence to that described above is produced for the triplet generated (DDULR, ULR, SULCI) described above by generating and validating a new triplet (C, R ', DDULR) from the domain of DDULR start of the role R. In another embodiment, the identification of the interrogation targets, in particular for the syntactic structures of interrogation with enumerative and relational response, is carried out simultaneously at the stage of validation of the triplets. The target constraints associated with the syntactic structure with relational response, are selected among the validated triplets which contain a concept associated with the keyword constructor or a concept subsumed by this concept. In this embodiment, the syntactic and semantic analysis are performed simultaneously assuming the existence of at least one semantic relationship implicitly contained in the request in natural language. If no elementary semantic unit of the tagged request has been validated, process 66 rejects this request because it does not comply with the knowledge base. If no labeled request has a validated elementary semantic unit, the process 66 rejects the request formulated by the user because it does not comply with the knowledge base. The next step 68 of the semantic analysis process is a validation step, for each labeled request, of the target interrogation constraints as a function of the validated elementary semantic units and / or of the knowledge base constraints, in order to obtain a set of validated interrogation targets. The process 68 validates the target constraints according to their type: - if a target constraint is a constraint associated with a syntactic structure of interrogation with binary response, this is automatically validated because it relates to the existence of triplets; - if a target constraint is a constraint associated with a syntactic structure of interrogation with an enumerative response, it is validated if the concept that it brings into play is present in the validated semantic units, otherwise it is eliminated; and - if a target constraint is a constraint associated with a syntactic structure of interrogation with relational response, it is validated if the relation which it brings into play is valid and that its elements are present in the validated semantic units, otherwise the constraint target is eliminated. If no target constraint has been validated for the tagged request, process 68 rejects this request because it does not comply with the knowledge base. If no tagged request has a validated target constraint, the process 68 rejects the request formulated by the user because it does not comply with the knowledge base. When the elementary semantic units and the target constraints have been validated, the method which is the subject of the invention then proceeds to extract the support data from the information sought from the knowledge base 10. In a step 70, the process extracts, for each labeled request, instances conforming to validated elementary semantic units and form a list of extracted instances initially empty. More particularly, by designating the labels of the elementary semantic units validated by C and C for two concepts, R for a role, I and I 'for two instances, the process 70 extracts the conforming instances by successively considering: - the validated elementary semantic units labels (l, R, l ') of the type {instance, role, instance}: instances I and I' are added to the end of the list of extracted instances; - the validated elementary semantic units of labels (l, R, C) of the type {instance, role, concept}: the instances of C are added at the end of the list of extracted instances; - the validated elementary semantic units of labels (C, R, I) of the type {concept.role, instance}, the instances of C are added at the end of the list of extracted instances; and - the validated elementary semantic units of labels (C, R, C) of the type {concept, role, concept}: the instances of C and C are added to the end of the list of extracted instances, any instance common to C and C being added only once to the end of the list. As we can see, an instance can appear several times in the list of extracted instances. The following step 72 of the method performs, for each labeled request, a first filtering and generates a list of validated extracted instances. Any instance I of a concept C which is not present as many times in the list of extracted instances as the concept C is not present in the validated elementary semantic units is considered as incorrect and eliminated, if not it is added to the list of validated extracted instances. The process then extracts, in a step 74, the response to the request formulated by the user. Process 74 returns as an answer the instances of the list of validated instances which satisfy the target constraints. If the validated triples did not make it possible to extract any instance, or if the target constraints do not return any instance, this means that the response to the request made by the user is not present in the knowledge base. Indeed, target constraints and elementary semantic units having been validated, this means that the request formulated by the user has a meaning in the knowledge base. Such a situation may, for example, correspond to an erroneous request, in which the question in natural language of knowing whether a female tennis player has won the male tournament, lexically and syntactically correct, cannot contain a conforming semantic answer, unless a compete in all categories of genres combined. Finally, in a step 76, the method classifies the instances of the list of validated instances. Typically the process sorts the instances chronologically or alphabetically. In another embodiment, the method returns as a response a predetermined number of validated instances, for example the ten most recent. In another embodiment, the method returns the number of validated instances. We have thus described a method and a system for extracting information support data based on the creation of triplets or pairs of lexical units from a query. It is also possible to create semantic units of higher dimension, to take into account for example semantic relations relating to more than three elements. The associated steps of the process are then deduced simply from those described above.

Claims

REVENDICATIONS 1. Base de connaissances (8) relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie (12) constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques formulées conformément à une logique de description prédéterminée et une base d'instances (14) relatives aux concepts, caractérisée en ce qu'elle comprend en outre une base de connaissances (11) relative au domaine de connaissances comprenant au moins une base d'unités lexicales (90) du type constructeur d'interrogation constituée de mots-clefs représentatifs de types de questions et de motifs syntaxiques, les mots-clefs représentatifs de types de question étant associés à un ensemble prédéterminé de classes de structures syntaxiques d'interrogation et à un ensemble prédéterminé de concepts et de rôles objets d'interrogation. CLAIMS 1. Knowledge base (8) relating to a predetermined domain of knowledge, this knowledge base comprising at least one ontology base (12) made up of formalized concepts and roles subject to a set of semantic constraints formulated in accordance with a predetermined description logic and a base of instances (14) relating to concepts, characterized in that it further comprises a knowledge base (11) relating to the field of knowledge comprising at least one base of lexical units (90) of the interrogation constructor type consisting of keywords representative of types of questions and of syntactic patterns, the keywords representative of types of question being associated with a predetermined set of classes of syntactic structures of interrogation and with a predetermined set of concepts and roles interrogation objects.
2. Base de connaissance selon la revendication 1 , caractérisé en ce que les concepts et les rôles objets d'interrogation sont des concepts et des rôles de la base de connaissances relative au domaine de connaissances. 2. Knowledge base according to claim 1, characterized in that the concepts and roles interrogation objects are concepts and roles of the knowledge base relating to the knowledge domain.
3. Base de connaissance selon la revendication 1 , caractérisée en ce que les concepts et les rôle objets d'interrogation sont des concepts et des rôles universels subsumant un ensemble prédéterminé de concepts et de rôles de la base de connaissances relative au domaine. 3. Knowledge base according to claim 1, characterized in that the concepts and the roles objects of interrogation are universal concepts and roles subsuming a predetermined set of concepts and roles of the knowledge base relating to the domain.
4. Base de connaissances selon l'une quelconque des revendications précédentes, caractérisée en ce que la base d'unités lexicales (30) comprend en outre un ensemble prédéterminé d'unités lexicales du type marqueur de syntaxe, les unités lexicales du type marqueur de syntaxe étant associées à un ensemble prédéterminé de concept et de rôles universels subsumant des concepts et des rôles de la base de connaissances relative au domaine de connaissance. 4. Knowledge base according to any one of the preceding claims, characterized in that the lexical unit base (30) further comprises a predetermined set of lexical units of the syntax marker type, the lexical units of the marker type of syntax being associated with a predetermined set of concepts and universal roles subsuming concepts and roles of the knowledge base relating to the domain of knowledge.
5. Base de connaissances selon l'une quelconque des revendications précédentes, caractérisée en ce que la base d'unités lexicales (30) comprend en outre un ensemble prédéterminé d'unités lexicales du type marqueur de syntaxe, les unités lexicales du type marqueur de syntaxe étant associés à des concepts et des rôles de la base de connaissances relatives au domaine de connaissances. 5. Knowledge base according to any one of the preceding claims, characterized in that the lexical unit base (30) further comprises a predetermined set of lexical units of the syntax marker type, the lexical units of the marker type of syntax being associated with knowledge base concepts and roles relating to the knowledge domain.
6. Procédé d'extraction de données d'une base de connaissances relative à un domaine interrogée par une requête en langage naturel, la base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques formulées conformément à une logique de description prédéterminée, une base d'instances relatives aux concepts, et une base de mots-clefs relatifs au domaine et représentatifs de types de questions parmi un ensemble de type de questions et/ou de structures syntaxiques, caractérisé en ce qu'il comprend au moins les étapes : - d'analyse lexicale (52,54,56) de la requête en langage naturel consistant à identifier les unités lexicales signifiantes de la requête et à étiqueter chacune des unités lexicales par au moins un concept, un rôle, une instance ou un mot-clef de la base de connaissances afin de générer au moins une requête étiquetée constituée d'unités lexicales étiquetées ; - d'analyse syntaxique (58,60,62,64) de chacune de la au moins une requête étiquetée comprenant les étapes : -° de création (60) d'unités sémantiques élémentaires constituées d'au moins deux unités lexicales étiquetées, chacune de ces unités lexicales étant étiquetée par un concept ou un rôle ou une instance, les concepts, rôles et instances associés à chacune de ces unités sémantiques élémentaires vérifiant ensemble une configuration de n-uplet d'un ensemble prédéterminé de configurations de n-uplet ; et -° d'identification (62) de contraintes cibles consistant à identifier au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de question afin de déterminer au moins une contrainte cible d'interrogation vérifiant une question parmi l'ensemble de types de question ; - d'analyse sémantique (66,68) de chaque requête étiquetée comprenant au moins les étapes : -° de validation (68) de chacune des unités sémantiques élémentaires en fonction des contraintes de la base de connaissances, afin d'obtenir un ensemble d'unités sémantiques élémentaires validées; -° de validation (68) des contraintes cibles d'interrogation en fonction des unités sémantiques élémentaires validées associées et/ou des contraintes de la base de connaissances, afin d'obtenir un ensemble de cibles d'interrogation validées; et - d'extraction de données (70,72,74,76) consistant à extraire de la base de connaissances les instances de la base d'instances vérifiant les unités sémantiques élémentaires validées par l'intermédiaire des contraintes cible d'interrogation validées. 6. Method for extracting data from a knowledge base relating to a domain questioned by a query in natural language, the knowledge base comprising at least one ontology base made up of formalized concepts and roles subjected to a set of semantic constraints formulated in accordance with a predetermined description logic, a base of instances relating to concepts, and a base of keywords relating to the domain and representative of types of questions among a set of types of questions and / or syntactic structures, characterized in that it comprises at least the steps: - of lexical analysis (52, 54, 56) of the request in natural language consisting in identifying the signifying lexical units of the request and in labeling each of the lexical units by at least a concept, a role, an instance or a keyword of the knowledge base in order to generate at least one labeled query made up of lexical units labeled; - syntactic analysis (58,60,62,64) of each of the at least one labeled request comprising the steps: - ° of creation (60) of elementary semantic units made up of at least two labeled lexical units, each of these lexical units being labeled by a concept or a role or an instance, the concepts, roles and instances associated with each of these elementary semantic units together verifying a configuration of tuple of a predetermined set of configurations of tuple; and - identification identification (62) of target constraints consisting in identifying at least one syntactic relation between the lexical units labeled by a concept or a role or an instance and the lexical units labeled by a keyword representative of a type of question in order to determine at least one target interrogation constraint verifying a question among the set of question types; - semantic analysis (66,68) of each labeled request comprising at least the steps: - validation (68) of each of the elementary semantic units according to the constraints of the knowledge base, in order to obtain a set of 'validated elementary semantic units; - ° validation (68) of the target interrogation constraints as a function of the associated validated elementary semantic units and / or of the knowledge base constraints, in order to obtain a set of validated interrogation targets; and - data extraction (70,72,74,76) consisting in extracting from the knowledge base the instances of the base of instances verifying the validated elementary semantic units by means of the validated interrogation target constraints.
7. Procédé selon la revendication 6, caractérisé en ce que l'étape d'analyse syntaxique et l'étape d'analyse sémantique sont réalisées simultanément en se fondant sur l'existence d'une relation sémantique implicitement contenue dans la requête en langage naturel. 7. Method according to claim 6, characterized in that the step of syntactic analysis and the step of semantic analysis are carried out simultaneously on the basis of the existence of a semantic relationship implicitly contained in the request in natural language .
8. Procédé selon la revendication 6, caractérisé en ce que l'ensemble prédéterminé de configurations de n-uplet est un ensemble prédéterminé de configurations de triplet. 8. Method according to claim 6, characterized in that the predetermined set of n-tuplet configurations is a predetermined set of triplet configurations.
9. Procédé selon la revendication 8, caractérisé en ce que l'étape (60) de création d'unités sémantiques élémentaires consiste à créer un ensemble d'unités sémantiques élémentaires syntaxiquement valides de deux ou trois unités lexicales étiquetées distinctes, les unités sémantiques à deux unités lexicales étiquetées consistant en deux unités lexicales distinctes étiquetées par un concept ou une instance et les unités sémantiques à trois unités lexicales étiquetées consistant en deux unités lexicales distinctes étiquetées par un concept ou une instance et une unité lexicale étiquetées par un rôle, et en ce que chaque unité sémantique élémentaire créée vérifie l'une quelconque des configurations de triplet parmi l'ensemble des configurations de triplet {concept, rôle, concept}, {concept.rôle, instance}, {instance.rôle.concept}, {instance, rôle, instance}. 9. Method according to claim 8, characterized in that the step (60) of creation of elementary semantic units consists in creating a set of syntactically valid elementary semantic units of two or three distinct labeled lexical units, the semantic units to two labeled lexical units consisting of two distinct lexical units labeled by a concept or instance and the semantic units with three labeled lexical units consisting of two distinct lexical units labeled by a concept and an instance and a lexical unit labeled by a role, and what each elementary semantic unit created verifies any one of the triplet configurations among the set of triplet configurations {concept, role, concept}, {concept.rôle, instance}, {instance.rôle.concept}, {instance , role, instance}.
10. Procédé selon la revendication 9, caractérisé en ce que l'étape (66) de validation de chacune des unités sémantiques élémentaires de l'étape d'analyse sémantique consiste : - à valider une unité sémantique élémentaire (PULCI, ULR, SULCI) à trois unités lexicales étiquetées, où PUL et SULCI désignent respectivement la première et seconde unité lexicale étiquetée par un concept ou une instance de l'unité sémantique élémentaire, et ULR désigne l'unité lexicale étiquetée par un rôle de l'unité sémantique élémentaire, si le premier couple d'unités lexicales (PULCI, ULR) et le second couple d'unités lexicales (ULR, SULCI) issus de l'unité sémantique élémentaire vérifient chacun une contrainte de la base de connaissances, et - à valider une unité sémantique élémentaire réduite (PULCI, SULCI) à deux unités lexicales étiquetées, où PULCI et SULCI désignent respectivement la première et seconde unité lexicale étiquetée par un concept ou une instance de l'unité sémantique élémentaire, s'il existe au moins un rôle R de la base de connaissances tel que les couples (PULCI, R) et (R.SULCI) vérifient chacun une contrainte de la base de connaissances, - à remplacer l'unité sémantique élémentaire réduite, si elle est validée, par une unité sémantique élémentaire reconstruite à trois unités (PULCI, Rmin ,SULCI), où Rmin désigne un rôle minimal de la base de connaissances pour l'unité sémantique élémentaire réduite (PULCI, SULCI). 10. Method according to claim 9, characterized in that the step (66) of validation of each of the elementary semantic units of the step of semantic analysis consists: - in validating an elementary semantic unit (PULCI, ULR, SULCI) to three labeled lexical units, where PUL and SULCI respectively designate the first and second lexical unit labeled by a concept or an instance of the elementary semantic unit, and ULR designates the lexical unit labeled by a role of the elementary semantic unit, if the first pair of lexical units (PULCI, ULR) and the second pair of lexical units (ULR, SULCI) from the elementary semantic unit each verify a constraint of the knowledge base, and - to validate a reduced elementary semantic unit (PULCI, SULCI) to two labeled lexical units, where PULCI and SULCI respectively designate the first and second labeled lexical unit by a concept or an instance of the elementary semantic unit, if there exists at least one role R of the knowledge base such that the couples (PULCI, R) and (R.SULCI) each verify a constraint of the base of knowledge, - to replace the reduced elementary semantic unit, if it is validated, by an elementary semantic unit reconstructed with three units (PULCI, Rmin, SULCI), where R m i n denotes a role minimum knowledge base for the reduced elementary semantic unit (PULCI, SULCI).
11. Procédé selon la revendication 10, caractérisé en ce que l'étape (66) de validation de chacune des unités sémantiques élémentaires consiste en outre : - lorsque uniquement le premier couple (PULCI, ULR) de l'unité sémantique élémentaire à trois unités lexicales étiquetées ne vérifie aucune contrainte de la base de connaissances : -° à déterminer et valider une unité sémantique élémentaire reconstruite à trois unités (DDRULR, ULR, SULCI) formée par le domaine de départ de l'unité lexicale étiquetée par un rôle DDRULR, l'unité lexicale étiquetée par un rôle ULR et la seconde unité lexicale étiquetée par un concept ou une instance SULCI de l'unité sémantique élémentaire, et -° à déterminer et valider, si elle existe, une unité sémantique élémentaire (PULCI, R1 , DDRULR) où R1 désigne un rôle de la base de connaissances tel que les couples (PULCI, R1) et (R1, DDRULR ) vérifient chacun une contrainte de la base de connaissances , et - lorsque uniquement le second couple (ULR, SULCI) de l'unité sémantique élémentaire à trois unités lexicales étiquetées ne vérifie aucune contrainte de la base de connaissances : -° à déterminer et valider une unité sémantique élémentaire11. Method according to claim 10, characterized in that the step (66) of validation of each of the elementary semantic units also consists: - when only the first pair (PULCI, ULR) of the elementary semantic unit with three units labeled lexicals does not check any knowledge base constraint: - ° to determine and validate an elementary semantic unit reconstructed with three units (DDRULR, ULR, SULCI) formed by the starting domain of the lexical unit labeled by a DDRULR role, the lexical unit labeled by a ULR role and the second lexical unit labeled by a SULCI concept or instance of the elementary semantic unit, and - ° determining and validating, if it exists, an elementary semantic unit (PULCI, R1, DDRULR) where R1 designates a role of the knowledge base such that the pairs (PULCI, R1) and (R1, DDRULR) each verify a constraint of the knowledge base, and - when only the second pair (ULR, SULCI) of the elementary semantic unit with three labeled lexical units does not check any knowledge base constraint: - ° to determine and validate an elementary semantic unit
(PULCI, ULR, DAULR) formée par le domaine d'arrivée de l'unité lexicale étiquetée par un rôle DAULR, l'unité lexicale étiquetée par un rôle ULR et la première unité lexicale étiquetée par un concept ou une instance PULCI de l'unité sémantique élémentaire, et -° à déterminer et valider, si elle existe, une unité sémantique élémentaire (DAULR, R2, SULCI) où R2 désigne un rôle de la base de connaissances tel que les couples (DAULR, R2) et (R2, SULCI) vérifient chacun une contrainte de la base de connaissances. (PULCI, ULR, DAULR) formed by the arrival domain of the lexical unit labeled by a DAULR role, the lexical unit labeled by a ULR role and the first lexical unit labeled by a PULCI concept or instance of the elementary semantic unit, and - ° to determine and validate, if it exists, an elementary semantic unit (DAULR, R2, SULCI) where R2 designates a role of the knowledge base such as couples (DAULR, R2) and (R2, SULCI) each verify a constraint of the knowledge base.
12. Procédé selon la revendication 11 , caractérisé en ce que l'étape de validation (60) de chacune des unités sémantiques élémentaires consiste en outre à réaliser un enchaînement d'au moins un triplet valide à partir du triplet (PULCI, ULR, DAULR) et un enchaînement d'au moins un triplet valide à partir du triplet (DDULR, ULR, SULCI). 12. Method according to claim 11, characterized in that the validation step (60) of each of the elementary semantic units also consists in carrying out a sequence of at least one valid triplet from the triplet (PULCI, ULR, DAULR ) and a sequence of at least one valid triplet from the triplet (DDULR, ULR, SULCI).
13. Procédé selon la revendication 6, caractérisé en ce que l'étape13. Method according to claim 6, characterized in that the step
(62) d'identification de cible de l'étape d'analyse syntaxique comprend les étapes : - d'identification d'une structure syntaxique de question de la requête étiquetée parmi un ensemble prédéterminé de structures syntaxiques de question ; et - d'identification d'au moins une contrainte logique cible d'interrogation à laquelle est soumise la structure syntaxique de question identifiée en fonction des unités lexicales étiquetées par un mot-clef représentatif de type de question. (62) identifying the target of the parsing step comprises the steps: of identifying a syntactic question structure of the labeled request from among a predetermined set of question syntactic structures; and - identification of at least one target logical interrogation constraint to which the syntactic structure of the question identified is subjected as a function of the lexical units labeled by a keyword representative of the type of question.
14. Procédé selon la revendication 13, caractérisé en ce que l'étape14. Method according to claim 13, characterized in that the step
(68) de validation des contraintes cibles de l'étape d'analyse sémantique consiste à valider une contrainte cible d'interrogation lorsqu'elle existe dans la base de connaissances et que les concepts et/ou instances qu'elle met en jeu sont présents dans les unités sémantiques élémentaires validées, une contrainte cible validée définissant alors une contrainte que doit vérifier toute réponse valide de la requête étiquetée. (68) validation of the target constraints of the semantic analysis step consists in validating a target interrogation constraint when it exists in the knowledge base and when the concepts and / or instances it brings into play are present in validated elementary semantic units, a validated target constraint then defining a constraint that must be verified by any valid response of the labeled request.
15. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que le procédé l'étape d'extraction (70,72,74,76) consiste en outre à éliminer les instances extraites un nombre de fois inférieur au nombre de fois que leur concept associé est présent dans lés unités sémantiques validées associées, et à sélectionner parmi les instances non éliminées les instances vérifiant au moins une des contraintes cibles d'interrogation associées aux unités sémantiques élémentaires validées dont elles sont extraites. 15. Method according to any one of the preceding claims, characterized in that the method the extraction step (70,72,74,76) consists of in addition to eliminating the instances extracted a number of times less than the number of times that their associated concept is present in the associated validated semantic units, and in selecting from the instances not eliminated the instances verifying at least one of the target interrogation constraints associated with the validated elementary semantic units from which they are extracted.
16. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que, pour exécuter l'étape d'extraction (70,72,74,76) de données, il consiste en outre à renvoyer, comme réponse finale à la requête en langage naturel, le résultat d'un comptage et/ou d'un triage prédéterminé et/ou d'une sélection prédéterminée d'instances spécifique comme réponse à la requête en langage naturel. 16. Method according to any one of the preceding claims, characterized in that, in order to execute the data extraction step (70,72,74,76), it also consists in returning, as a final response to the request in natural language, the result of a predetermined count and / or sorting and / or a predetermined selection of specific instances as a response to the request in natural language.
17. Système (40) d'extraction de données d'une base de connaissances relative à un domaine interrogée par une requête en langage naturel, la base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes, une base d'instances relatives aux concepts, et une base de mots- clefs relatifs au domaine et représentatifs de types de questions parmi un ensemble de type de questions et/ou de structures syntaxiques, caractérisé en ce qu'il est adapté pour mettre en œuvre le procédé conforme à l'une quelconque des revendications 6 à 16. 17. System (40) for extracting data from a knowledge base relating to a domain interrogated by a query in natural language, the knowledge base comprising at least one ontology base made up of formalized concepts and roles subject to a set of constraints, a base of instances relating to concepts, and a base of keywords relating to the domain and representative of types of questions among a set of types of questions and / or syntactic structures, characterized in that it is suitable for implementing the method according to any one of claims 6 to 16.
PCT/FR2005/000063 2004-01-12 2005-01-11 Ontological knowledge base and information retrieval method for a natural language request WO2005073908A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0400241A FR2865055A1 (en) 2004-01-12 2004-01-12 Knowledge base for tennis, has interrogative knowledge base with lexical unit database having key words associated to classes of interrogation syntax structures of request in natural language and to interrogation object concepts and roles
FR0400241 2004-01-12

Publications (1)

Publication Number Publication Date
WO2005073908A1 true WO2005073908A1 (en) 2005-08-11

Family

ID=34684940

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/000063 WO2005073908A1 (en) 2004-01-12 2005-01-11 Ontological knowledge base and information retrieval method for a natural language request

Country Status (2)

Country Link
FR (1) FR2865055A1 (en)
WO (1) WO2005073908A1 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707160B2 (en) 2000-11-28 2010-04-27 True Knowledge Ltd. Knowledge storage and retrieval system and method
US8666928B2 (en) 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
US8838659B2 (en) 2007-10-04 2014-09-16 Amazon Technologies, Inc. Enhanced knowledge repository
CN104750499A (en) * 2015-04-21 2015-07-01 南京大学 Constraint solving and description logic based web service combination method
US9110882B2 (en) 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US9805089B2 (en) 2009-02-10 2017-10-31 Amazon Technologies, Inc. Local business and product search system and method
CN112115272A (en) * 2020-07-30 2020-12-22 中国民用航空上海航空器适航审定中心 Airworthiness examination ontology knowledge base
CN112364137A (en) * 2020-09-03 2021-02-12 中国人民解放军战略支援部队信息工程大学 Knowledge graph construction method for space target situation
US10956468B2 (en) 2017-11-30 2021-03-23 International Business Machines Corporation Cognitive template question system
CN115345411A (en) * 2022-04-29 2022-11-15 水利部交通运输部国家能源局南京水利科学研究院 Matrix fusion algorithm-based body evolution method in dam break emergency plan field
US11880361B2 (en) * 2017-06-20 2024-01-23 Orange Communication devices and methods

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1974316B1 (en) * 2006-01-20 2018-04-25 Amazon Europe Holding Technologies SCS Knowledge storage and retrieval system and method
CN112860940B (en) * 2021-02-05 2022-11-25 陕西师范大学 Music resource retrieval method based on sequential concept space on description logic knowledge base

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555408A (en) * 1985-03-27 1996-09-10 Hitachi, Ltd. Knowledge based information retrieval system
US5909678A (en) * 1996-09-13 1999-06-01 International Business Machines Corporation Computer systems, method and program for constructing statements by dragging and dropping iconic representations of subcomponent statements onto a phrase template
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5995955A (en) * 1996-06-17 1999-11-30 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555408A (en) * 1985-03-27 1996-09-10 Hitachi, Ltd. Knowledge based information retrieval system
US5995955A (en) * 1996-06-17 1999-11-30 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation
US5909678A (en) * 1996-09-13 1999-06-01 International Business Machines Corporation Computer systems, method and program for constructing statements by dragging and dropping iconic representations of subcomponent statements onto a phrase template
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219599B2 (en) 2000-11-28 2012-07-10 True Knowledge Limited Knowledge storage and retrieval system and method
US8468122B2 (en) 2000-11-28 2013-06-18 Evi Technologies Limited Knowledge storage and retrieval system and method
US7707160B2 (en) 2000-11-28 2010-04-27 True Knowledge Ltd. Knowledge storage and retrieval system and method
US9098492B2 (en) 2005-08-01 2015-08-04 Amazon Technologies, Inc. Knowledge repository
US8666928B2 (en) 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
US9519681B2 (en) 2007-10-04 2016-12-13 Amazon Technologies, Inc. Enhanced knowledge repository
US8838659B2 (en) 2007-10-04 2014-09-16 Amazon Technologies, Inc. Enhanced knowledge repository
US9805089B2 (en) 2009-02-10 2017-10-31 Amazon Technologies, Inc. Local business and product search system and method
US11182381B2 (en) 2009-02-10 2021-11-23 Amazon Technologies, Inc. Local business and product search system and method
US9110882B2 (en) 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US11132610B2 (en) 2010-05-14 2021-09-28 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
CN104750499A (en) * 2015-04-21 2015-07-01 南京大学 Constraint solving and description logic based web service combination method
US11880361B2 (en) * 2017-06-20 2024-01-23 Orange Communication devices and methods
US10956468B2 (en) 2017-11-30 2021-03-23 International Business Machines Corporation Cognitive template question system
CN112115272A (en) * 2020-07-30 2020-12-22 中国民用航空上海航空器适航审定中心 Airworthiness examination ontology knowledge base
CN112364137A (en) * 2020-09-03 2021-02-12 中国人民解放军战略支援部队信息工程大学 Knowledge graph construction method for space target situation
CN115345411A (en) * 2022-04-29 2022-11-15 水利部交通运输部国家能源局南京水利科学研究院 Matrix fusion algorithm-based body evolution method in dam break emergency plan field

Also Published As

Publication number Publication date
FR2865055A1 (en) 2005-07-15

Similar Documents

Publication Publication Date Title
WO2005073908A1 (en) Ontological knowledge base and information retrieval method for a natural language request
Wei et al. Finetuned language models are zero-shot learners
Sporleder et al. Using automatically labelled examples to classify rhetorical relations: An assessment
Monz From document retrieval to question answering
Van Atteveldt Semantic network analysis: Techniques for extracting, representing, and querying media content
US7689411B2 (en) Concept matching
Keefe Theories of vagueness
Landgrebe et al. Making AI meaningful again
Yangarber Scenario customization for information extraction
Laporte Choosing features for classifying multiword expressions
Olausson et al. LINC: A neurosymbolic approach for logical reasoning by combining language models with first-order logic provers
Do et al. Are rotten apples edible? challenging commonsense inference ability with exceptions
Pease et al. Large theory reasoning with SUMO at CASC
EP1903483A1 (en) Method and device for encoding a note with semantic and spatial similarity between concepts of an ontology memorised in the form of a hierarchically numbered lattice
CN109933787B (en) Text key information extraction method, device and medium
Barker Semiautomatic recognition of semantic relationships in English technical texts.
Rieppel What happens when the language of science threatens to break down in systematics: a Popperian perspective
WO2016116459A1 (en) Lemmatisation method, and corresponding device and program
Haslinger et al. Asymmetrically distributive items and plural projection
Hees et al. Betterrelations: collecting association strengths for linked data triples with a game
Keller et al. Hypothesis testing ordinary meaning
Reddy et al. Research challenges in text mining and empirical research directions
Goldstein Scientific scotism—The emperor's new trousers or has armstrong made some real strides?
Luiggi et al. Dynamic Named Entity Recognition
Atencia Semantic alignment in the context of agent interaction

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase