DE69930690T2

DE69930690T2 - Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium

Info

Publication number: DE69930690T2
Application number: DE69930690T
Authority: DE
Inventors: Jan-Jaap Gloucester Green Ijdens; Victor Sandford on Thames Poznanski
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-06-02
Filing date: 1999-05-28
Publication date: 2006-11-16
Anticipated expiration: 2019-05-29
Also published as: GB2338089A; GB9811744D0; US6389387B1; JPH11353314A; DE69930690D1; EP0964344A3; JP3690938B2; EP0964344B1; EP0964344A2

Description

Die Erfindung betrifft ein Verfahren einer Vorrichtung zum Erzeugen eines mehrsprachigen Index. Die Erfindung betrifft auch ein Speichermedium zum Speichern eines Programms zum Ausführen des Verfahrens, einen Index und ein Speichermedium zum Aufnehmen des Index.
Die hier offenbarten Techniken können zur Informationsverwaltung verwendet werden. Zu Beispielen derartiger Anwendungen gehören Informationssuchsysteme wie Suchmaschinen, zum Abrufen von Information im Internet oder in Büroinformationssystemen, Informationsfilterungsanwendungen (die auch als Informationsweiterleitungssysteme bekannt sind) und Informationsentnahmeanwendungen.
Es existieren viele Datenbanken, die Dokumente in Maschinen-lesbarer Form enthalten, und auf die zugegriffen werden kann, um Information zu lokalisieren und abzurufen. In ähnlicher Weise existieren verschiedene bekannte Techniken zum Lokalisieren von Dokumenten auf Grundlage eines interessierenden Gegenstands. Ein Beispiel dafür ist die Sammlung veröffentlichter Patentbeschreibungen. Alle Patentbeschreibungen werden bei ihrer Veröffentlichung entsprechend dem Gegenstand gemäß der internationalen Klassifizierung indiziert. Der Inhalt jeder Patentbeschreibung wird entsprechend der internationalen Klassifizierung analysiert, und die relevanten Klassifizierungsnummern für den Gegenstand bilden Teil des Kopfs sowohl der gedruckten Patentbeschreibung als auch der Maschinen-lesbaren Form.
Um Patentbeschreibungen zu lokalisieren, oder tatsächlich auch andere Dokumente, deren Sammlungen ähnlich entsprechend dem Gegenstand klassifiziert sind, ist es erforderlich, die korrekte internationale Klasse auszuwählen und diese bei einem Suchsystem anzuwenden. Dann lokalisiert das Suchsystem alle Patentbeschreibungen, die in dieselbe Klasse klassifiziert wurden. Jedoch besteht ein Nachteil dieses Systems darin, dass effizienter Gebrauch Vertrautheit und Erfahrung mit der Verwendung des internationalen Klassifizierungssystems erfordert. Auch stützt sich diese Technik auf eine korrekte Klassifi zierung von Patentbeschreibungen. Eine Anwendung ohne Erfahrung kann dazu führen, dass relevante Patentbeschreibungen nicht aufgefunden werden, wohingegen eine fehlerhafte Klassifizierung verhindern kann, dass eine relevante Patentbeschreibung durch diese Technik jemals lokalisiert wird.
Eine andere bekannte Technik zur Informationssuche stützt sich auf die Auswahl von Schlüsselwörtern, die dann dazu verwendet werden, nach relevanten Dokumenten, wie Patentbeschreibungen, zu suchen. In diesem Fall ist es erforderlich, Wörter zu identifizieren, die vermutlich in den relevanten Dokumenten auftreten, für die es jedoch unwahrscheinlich ist, dass sie irrelevanten Dokumenten auftreten. Das Suchen unter Verwenden von Schlüsselwörtern führt dann zu allen Dokumenten, die die Schlüsselwörter oder Kombinationen von Schlüsselwörtern enthalten.
Bei dieser Technik existieren mehrere Schwierigkeiten. Beispielsweise kann es bei einem Gegenstand ohne gut definierte oder Standardterminologie schwierig oder unmöglich sein, alle Schlüsselwörter auszuwählen, die relevante Dokumente identifizieren könnten. Andererseits kann die Verwendung von allgemeineren Schlüsselwörtern dazu führen, dass sich sehr große Anzahlen von Dokumenten ergeben, von denen viele irrelevant sind. Ferner können derartige Schlüsselwörter nur für Dokumente verwendet werden, die in derselben Sprache vorliegen oder die vollständig oder teilweise in die Sprache der Schlüsselwörter übersetzt oder abstrahiert wurden. Die Effektivität dieser Technik beim Lokalisieren von Dokumenten in anderen Sprachen kann daher schlecht oder nicht existent sein.
D.A. Hull und G. Greffenstette, "Quering across Languages: a Dictionary-Based Approach to Multilingual Information Retrieval", 19th Annual International Conference on Research and Development in Information Retrieval (SIGIR '96), Seiten 49-57, 1996 sowie D.W. Oard und B.J. Dorr, "A Survey of Multilingual Text Retrieval", Technical Report UMIACS-TR-96-19, University of Maryland, Institute for Advanced Computer Studies, April 1996, offenbaren Techniken zum Ausführen einer mehrsprachigen Informationssuche, wobei die eine auf einer Dokumentübersetzung beruht und die andere auf einer Fragenübersetzung beruht. In jedem Fall ist jede Übersetzung durch ein Maschinenübersetzungssystem auszuführen. So wird im Fall einer Dokumentübersetzung ein Maschinenübersetzungssystem dazu verwendet, eine gesamte Sammlung von Dokumenten in eine Zielsprache zu übersetzen, damit Fragen zum Lokalisieren und Heraussuchen von Information, z. B. auf Grundlage der oben beschriebenen Schlüsselworttechnik, in der Quellen(Dokument)sprache oder der Zielsprache ausgeführt werden können. Bei der anderen Technik werden die Dokumente nicht übersetzt, sondern jede Frage wird in die Quellen- oder Dokumentsprache übersetzt, und die Übersetzungen werden dazu verwendet, die Dokumentensammlung zu durchsuchen.
Ein Nachteil bei der Übersetzung der Frage besteht darin, dass Fragen häufig einige wenige Wörter enthalten und sie nicht einmal in einem Satzzusammenhang vorliegen müssen. Demgemäß kann eine automatische linguistische Verarbeitung derartiger Fragen schwierig sein, und es kann zu unzufriedenstellenden Ergebnissen führen, wie einem Fehlschlag beim Lokalisieren relevanter Dokumente und beim Lokalisieren irrelevanter Dokumente.
Die Verwendung einer automatischen Maschinenübersetzung zum Übersetzen gesamter Sammlungen von Dokumenten zum Erzeugen eines Index ist ebenfalls problematisch. Die hinsichtlich der Rechenzeit und des zusätzlichen Speichervermögens eines Speichermediums benötigten Ressourcen machen diese Technik unattraktiv. Obwohl eine derartige Verarbeitung nicht in Echtzeit ausgeführt werden muss und da sie insbesondere nicht als Teil jeder Informationssuchanforderung erforderlich ist, sind erhebliche Ressourcen notwendig, und es kann sich um ein dauerndes Erfordernis handeln, wenn weitere Dokumente zur Sammlung hinzugefügt werden. Eine Übersetzung in mehrere Zielsprachen vervielfältigt die Ressourcenerfordernisse.
Maschinenübersetzungssysteme führen auch Aufgaben aus, die für die Informationssuche, und insbesondere zum Erzeugen eines mehrsprachigen Index, nicht von Nutzen sind. Beispielsweise versuchen Maschinenübersetzungssysteme, zusätzlich zum Übersetzen von Wörtern und Gruppen von Wörtern, wie sie in Dokumenten enthalten sind, eine Übersetzung guter Qualität zu erzeugen, die durch Menschen lesbar ist. Wenn die Übersetzung lediglich zum Indizieren benötigt wird, sind Funktionen wie eine korrekte Wortreihenfolge in der Zielsprache überflüssig, und daher werden Rechenressourcen vergeudet.
Ein weiterer Nachteil bei Maschinenübersetzungssystemen bei Anwendung zum Übersetzen von Dokumenten in eine Zielsprache zu Indizierungszwecken besteht darin, dass die Effektivität des Index ernsthaft beeinträchtigt werden kann. Einige Maschinenübersetzungssysteme erzeugen eine einzelne bevorzugte Übersetzung eines eingegebenen Texts. Anders gesagt, versuchen derartige Systeme, eine einzelne Übersetzung zu identifizieren und zu erzeugen, die entsprechend automatischen Kriterien innerhalb des Systems als beste Übersetzung beurteilt wird. Wenn diese Übersetzung fehlerhaft ist, ist das Heraussuchen von Information auf Grundlage der fehlerhaften Übersetzung ineffektiv, da es möglich ist, das relevante Dokumente nicht lokalisiert werden und irrelevante Dokumente lokalisiert werden.
Andere Maschinenübersetzungssysteme versuchen, alle möglichen Übersetzungen eingegebenen Texts zu erzeugen. Demgemäß können, selbst dann, wenn die korrekte Übersetzung vorliegt, viele andere Übersetzungen vorhanden sein, die unzweckdienlich oder falsch sind. Die Verwendung derartiger Übersetzungen zur Informationssuche führt zur Erzeugung fehlerhafter Übereinstimmungen bei dem System gestellten Fragen, so dass sehr große Anzahlen irrelevanter Dokumente gemeinsam mit den relevanten Dokumenten lokalisiert werden können.
WO 97-08604 offenbart ein Dokumentensuchsystem, bei dem Dokumente und Fragen gewandelt und in eine gemeinsame, sprachunabhängige, begriffsmäßige Präsentation gewandelt oder reduziert werden.
EP 0 813 160 offenbart eine Technik für den Zugriff auf eine Datenbank von einem Typ, bei dem jeder Eintrag über ein Haupt- oder Kopfwort mit einem oder mehreren zugeordneten Wörtern als Untereinträgen verfügt. Wenn ein Wort einer Frage mit dem Kopfwort eines Eintrags übereinstimmt, werden die Wörter der Frage auf das Vorliegen von Wörtern in den Untereinträgen geprüft.
EP 0 304 191 offenbart ein Suchsystem, bei dem Wörter einer Frage verarbeitet werden, um äquivalente Wörter zur Verwendung während eines Suchvorgangs aufzufinden.
A. Ginsberg offenbart in "A Unified Approach to Automatic Indexing and Information Retrieval", IEEE Expert, IEEE Inc. New York, USA, Vol. 8, Nr. 5, Oktober 1993, Seiten 46-56, XP 000413472, ISSN: 0885-9000 eine Technik zum Erzeugen eines Index für eine Sammlung von Dokumenten in einer einzelnen Sprache. Mindestens einige der in den Dokumenten vorhandenen Begriffe werden identifiziert und dazu verwendet, auf einen Thesaurus zuzugreifen, um Synonyme, allgemeinere Begriffe und speziellere Begriffe aufzufinden. Diese Begriffe werden dann den Dokumenten, in denen sie auftreten, oder mit denen sie in Zusam menhang stehen, zugeordnet, und sie werden zu einem Index für die Dokumente zusammengestellt.
Gemäß einer ersten Erscheinungsform der Erfindung ist ein Verfahren zum Erzeugen eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere Dokumente, geschaffen, das die folgenden Schritte aufweist:

– Identifizierung jedes von mindestens einigen der in den Dokumenten vorhandenen Begriffe;
– Zugriff auf eine mehrsprachige Ressource mit jedem identifizierten Begriff, um äquivalente Begriffe zu erzeugen, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs;
– Erzeugen, für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt;
– Erzeugen, für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und
– Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.

Der hier verwendete Ausdruck "Begriff" bedeutet ein einzelnes Wort, eine Gruppe verbundener Wörter, die in einem Dokument nebeneinander auftreten (kontinuierliche Kollokation), oder eine Gruppe von Wörtern, die miteinander verbunden sind, jedoch in mindestens zwei Untergruppen von Wörtern unterteilt sind, die einem Dokument durch ein oder mehrere Wörter getrennt sind, die nicht Elemente der Gruppe sind (nicht kontinuierliche Kollokationen).
Der Ausdruck "Kennung", wie er hier verwendet wird, bedeutet jede Maßnahme zum Identifizieren einer oder mehrerer Stellen eines Begriffs, z. B. einer Überschrift oder einer beliebigen Seriennummer eines den Begriff enthaltenden Dokuments. Der Ausdruck "Indizierungsmerkmal", wie hier verwendet, bedeutet einen Begriff und eine Kennung.
Der Ausdruck "in linguistischem Zusammenhang", wie hier verwendet, bedeutet einen Begriff mit derselben, einer ähnlichen oder einer einschlägigen Bedeutung. Beispielsweise beinhalten Begriffe in linguistischem Zusammenhang Syn onyme, allgemeinere Begriffe sowie speziellere Begriffe in derselben (natürlichen) Sprache sowie Übersetzungen in eine andere (natürliche) Sprache.
Obwohl die Dokumente in einem beliebigen Sprachtyp vorliegen können, wie einer Computer-Programmierhochsprache, handelt es sich bei den Dokumenten vorzugsweise um solche in einer natürlichen Sprache.
Die mehrsprachige Ressource kann über ein Glossar verfügen. Das Glossar kann ein eingeschränktes, nicht deterministisches Glossar sein. Das Glossar kann mehrere Übersetzungen mindestens eines der identifizierten Begriffe bilden, und es kann jeder Übersetzung entsprechend der Wahrscheinlichkeit, dass diese korrekt ist, eine Priorität zuweisen.
Die mehrsprachige Ressource kann über ein zweisprachiges Wörterbuch verfügen.
Die mehrsprachige Ressource kann über ein Maschinenübersetzungssystem verfügen.
Der Identifizierungsschritt kann durch einen Teil einer Sprachmarkierungseinrichtung ausgeführt werden.
Gemäß einer zweiten Erscheinungsform der Erfindung ist eine Vorrichtung zum Erzeugen eines mehrsprachigen Index, mit Indizierungsmerkmalen, für mehrere Dokumente, geschaffen, die Folgendes aufweist:

– eine Einrichtung zum Identifizieren jedes von mindestens einigen der in den Dokumenten vorhandenen Begriffe;
– eine mehrsprachigen Ressource zum Erzeugen äquivalenter Begriffe aus jedem identifizierten Begriff, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs;
– eine Einrichtung zum Erzeugen, für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt;
– eine Einrichtung zum Erzeugen, für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und
– eine Einrichtung zum Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.

Die mehrsprachige Ressource kann über ein Glossar verfügen. Das Glossar kann ein eingeschränktes, nicht deterministisches Glossar sein. Das Glossar kann so ausgebildet sein, dass es mehrere Übersetzungen mindestens eines der identifizierten Begriffe bildet, und es kann jeder Übersetzung entsprechend der Wahrscheinlichkeit, dass diese korrekt ist, eine Priorität zuweisen.
Die mehrsprachige Ressource kann über ein Maschinenübersetzungssystem verfügen.
Die mehrsprachige Ressource kann über ein zweisprachiges Wörterbuch verfügen.
Die Identifizierungseinrichtung kann über einen Teil einer Sprachmarkierungseinrichtung verfügen.
Die Vorrichtung kann über einen programmierten Datenprozessor verfügen.
Gemäß einer dritten Erscheinungsform der Erfindung ist ein Speichermedium geschaffen, das dadurch gekennzeichnet ist, dass es ein Programm zum Steuern eines Datenprozessors zum Ausführen eines Verfahrens gemäß der ersten Erscheinungsform der Erfindung enthält.
So ist es möglich, einen mehrsprachigen Index für eine Sammlung von Dokumenten mit Indizierungsmerkmalen zu erzeugen, die nicht auf die in den Dokumenten auftretenden Begriffe beschränkt sind. Unter Verwendung mehrsprachiger Ressourcen kann die Indizierung auf effiziente und effektive Weise in anderen Sprache als der Quellen- oder Dokumentsprache ausgeführt werden.
Obwohl jeder beliebige Typ einer mehrsprachigen Ressource verwendet werden kann, zeigen leichte, linguistische quervernetzte Glossierungssysteme Vorteile. Ein derartiges Glossierungssystem nutzt eingeschränkten Nichtdeterminismus zum Erzeugen plausibler Übersetzungen in der Zielsprache, die in Indizierungsmerkmalen zu verwenden sind. Derartige Glossierungssysteme oder Glossare können vom in EP 0 813 160 und GB 2 314 183 offenbarten Typ sein. Dieser Glossartyp kann sequenzielle (kontinuierliche) und nicht-sequenzielle (nichtkontinuierliche) Kollokationen, die durch ein Kopfwort indiziert werden, er kennen und übersetzen. Ferner kann dieses System dazu verwendet werden, alternativen Übersetzungen Prioritäten auf solche Weise zuzuschreiben, dass konsistente Übersetzungen vollständiger Textabschnitte unabhängig davon immer erhalten werden, welche von mehreren Übersetzungen eines Worts oder einer Kollokation tatsächlich ausgewählt wird. Ferner ermöglicht es die Prioritätszuteilung für alternative Übersetzungen, eine eingeschränkte Anzahl derartiger Übersetzungen zu verwenden, z. B. auf Grundlage der Prioritätsinformation.
Derartige Glossare sind effizienter als Maschinenübersetzungssysteme. Ein Index erfordert lediglich die Identifizierung und Übersetzung von Begriffen, und er erfordert keine anderen Verarbeitungsschritte, wie eine Syntaxanalyse und die Erzeugung einer lesbaren Übersetzung, wie sie durch Maschinenübersetzungssysteme erstellt wird. So ist die Verwendung eines Glossierungsvorgangs rechnermäßig dadurch effizient, dass wesentlich weniger Rechenzeit erforderlich ist.
Durch die Verwendung eines Glossars können die Probleme in Zusammenhang mit der Auswahl durch ein Maschinenübersetzungssystem betreffend eine einzelne, wahrscheinlichste, jedoch möglicherweise fehlerhafte Übersetzung und die Auswahl aller möglicher Übersetzungen einschließlich derjenigen, die falsch sind und für Indizierungszwecke völlig ungeeignet sein können, überwinden. Unter Verwendung nicht-deterministischer Techniken kann eine eingeschränkte Anzahl der wahrscheinlichsten Übersetzungen der Begriffe geliefert werden. Es existiert eine sehr hohe Wahrscheinlichkeit dafür, dass diese eingeschränkte Anzahl von Übersetzungen, die aus allen möglichen Übersetzungen ausgewählt werden, die beste oder korrekte Übersetzung enthält. Demgemäß liefert das Zugreifen auf Dokumente unter Verwendung von auf diese Weise erzeugten Indizes für eine hohe Wahrscheinlichkeit dafür, dass alle relevanten Dokumente lokalisiert werden, während die Anzahl irrelevanter Dokumente, die andernfalls lokalisiert werden könnten, verringert werden kann.
Die Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beispielhaft weiter beschrieben.
1 ist ein schematisches Blockdiagramm einer Vorrichtung zum Erzeugen eines Index, die eine Ausführungsform der Erfindung bildet; und
2 und 3 sind Flussdiagramme zum Veranschaulichen eines Verfahrens zum Erzeugen eines Index, das eine Ausführungsform der Erfindung bildet und von der in der 1 dargestellten Vorrichtung ausgeführt wird.
Die 1 zeigt eine Vorrichtung zum Erzeugen eines Index für mehrere Dokumente in Maschinen-lesbarer Form, die in einem Dokumentenspeicher 1, wie einer Magnetplatte oder einem optischen Speichermedium wie einer CD-ROM gespeichert sind. Die Vorrichtung ist vom Typ eines programmierten Datenprozessors, wie eines Computers, und sie verfügt über einen programmierbaren Datenprozessor 2, der mit einer Eingangsschnittstelle 3, wie einer Tastatur und einer Maus, und einer Ausgangsschnittstelle 4, die mit einem Display und einem Drucker, versehen ist. Der Datenprozessor 2 verfügt über einen "Arbeitsspeicher" in Form eines Direktzugriffsspeichers (RAM) 5 zum Zwischenspeichern von Daten während Datenverarbeitungsvorgängen. Zum Speichern von Daten, die aufrechterhalten werden müssen, z. B. dann, wenn die Spannungsversorgung der Vorrichtung abgeschaltet wird, ist ein nichtflüchtiger Lese/Schreib-Speicher 6 vorhanden. Ein Programmspeicher 7 in Form eines Festwertspeichers (ROM) enthält ein Programm zum Steuern des Betriebs des Datenprozessors 2.
Die Vorrichtung kann auch mit anderen Speichervorrichtungen versehen sein. Beispielsweise können dazu geeignete Laufwerke für CD-ROMs 8, Disketten 9 sowie digitale Videoplatten (DVDs) 10 gehören. Diese Vorrichtungen können vom nur Lesetyp oder, z. B. bei Disketten 9, vom Lese/Schreib-Typ sein. Derartige Vorrichtungen können den Dokumentenspeicher 1 bilden, und sie können ein Ausgabemedium der Vorrichtung bilden. Beispielsweise kann der durch die Vorrichtung erzeugte Index auf jedes der in der 1 dargestellten Speichermedien 8, 9, 10 geschrieben werden.
Der Programmspeicher 7 enthält das oben genannte Programm, das vom Datenprozessor 2 ausgeführt wird, und/oder die mehrsprachige Ressource 11 und/oder den Thesaurus 12, um die hier beschriebenen verschiedenen Operationen auszuführen. Das Programm kann in einer beliebigen einer Anzahl bekannter Computersprachen geschrieben sein, wie es für den Fachmann auf dem Gebiet der Computerprogrammierung leicht ersichtlich ist. Demgemäß werden weitere Einzelheiten betreffend den speziellen Code selbst der Kürze halber weggelassen.
Eine mehrsprachige Ressource 11 und ein Maschinen-lesbarer Thesaurus 12 sind in der 1 als individuelle Vorrichtungen dargestellt. Jedoch können diese Vorrichtungen innerhalb der bereits beschriebenen Komponenten der Vorrichtung realisiert sein. Beispielsweise kann jeder der Speicher und Vorrichtungen 7 bis 10 die Daten enthalten, und der Speicher 7 kann Programme zum Ausführen der mehrsprachige Ressource und/oder des Thesaurus 12 enthalten.
Die mehrsprachige Ressource 11 zeigt vier Ressourcen, die während des Betriebs der Vorrichtung verwendet werden können. Ein Dokumentenglossar 13 ist eine "Vorrichtung", die eine "geordnete" Anzahl von Wörtern oder Kollokationen (Gruppen von Wörtern) in einer Quellensprache mit Übersetzungen in eine Zielsprache markiert. Das Glossar ist vorzugsweise vom Typ, der die Übersetzungen jedes Worts oder einer Kollokation in der Reihenfolge der Wahrscheinlichkeit dafür, dass es sich um die "korrekte" Übersetzung handelt, ordnet. Es ist vorzugsweise vom eingeschränkten, nicht deterministischen Typ, wie z. B. in EP 0 813 160 und GB 2 314 183 offenbart.
Obwohl das Dokumentenglossar 13 der bevorzugte Typ einer mehrsprachige Ressource für die Vorrichtung ist, sind in der 1 andere Ressourcentypen veranschaulicht. Demgemäß kann die mehrsprachige Ressource 11 über ein Maschinenübersetzungssystem 14 verfügen. Ein geeignetes Maschinenübersetzungssystem ist von W. John Hutchins und Harold L. Somers in "An Introduction to Maschine Translation", Academic press, 1992, ISBN 0-12-362830-X offenbart. Ein Maschinenübersetzungssystem führt eine tiefere Analyse in der Quellensprache als ein Glossar aus, und es führt auch normalerweise als "Erzeugung" bezeichnete Schritte aus, die versuchen, die Übersetzung von Wörtern oder Kollokationen in der Quellensprache in die Zielsprache in die korrekte grammatikalische Reihenfolge für die Zielsprache zu bringen und die korrekten Beugungen usw. zu erzeugen. Wie hier beschrieben, führen derartige Maschinenübersetzungssystem mehr Verarbeitung aus, und sie benötigen mehr Ressourcen als ein Glossar, jedoch können sie unter geeigneten Umständen als die mehrsprachige Ressource 11 verwendet werden.
Die mehrsprachige Ressource 11 kann über ein mehrsprachiges Wörterbuch 15 vom Maschinen-lesbaren Typ verfügen. Beispielsweise muss der Text in der Quellensprache nicht verarbeitet werden, sondern er kann einfach in Wörtern, und möglicherweise Kollokationen, unterteilt werden, und dann dazu verwendet werden, auf das Wörterbuch 15 zuzugreifen, um wortweise Übersetzungen des Texts zu erstellen.
Die mehrsprachige Ressource 11 kann über einen Teil einer Sprachmarkierungseinrichtung 16 verfügen. Eine derartige "Vorrichtung" führt eine begrenzte grammatikalische Analyse des Texts in der Quellensprache aus, um den Sprachteil jedes Worts zu bestimmen. Das Ergebnis dieser eingeschränkten Analyse kann dann auf das zweisprachige Wörterbuch 15 angewandt werden, um eine verbesserte Wortweise Übersetzung zu liefern, als sie unter Verwendung alleine des Wörterbuchs 15 erhalten werden kann.
Die 2 und 3 veranschaulichen ein Verfahren zum Erzeugen eines Index, das von der in der 1 dargestellten Vorrichtung ausgeführt werden kann. Der Dokumentenspeicher 1 enthält eine Sammlung S von Dokumenten in einer Quellen-Sprache, wie einer natürlichen Sprache. Nur zur Veranschaulichung wird der Betrieb für den Fall beschrieben, dass die Dokumente der Sammlung S in Englisch vorliegen und ein Index für Englisch und Holländisch benötigt wird.
In einem Schritt 20 wird ein Parameter "d" auf den Wert eins eingestellt, und ein Parameter N wird auf die Grundzahl der Dokumentensammlung S, d.h. die Anzahl der Dokumente in der Sammlung, eingestellt. Ein Schritt 21 testet, ob "d" kleiner als N oder gleich groß ist, und wenn dies der Fall ist, wird eine Routine 22 ausgeführt, die einen Indizierungsmerkmalsgenerator für linguistische Quervernetzung auf ein als "d" gekennzeichnetes Dokument anwendet, was in der 3 detaillierter dargestellt ist.
Das Dokument d in der Quellensprache ist mit 23 dargestellt, und es wird in einem Schritt 24 an eine "wahlweise" nicht deterministische Analyse und dann an einen Schritt 25 geliefert, der individuelle Dokumenten Wörter und Kollokationen aus dem Dokument d identifiziert und sie in einem Datensatz d speichert. Der Schritt 24 wird für jeden Satz des Dokuments d der Reihe nach ausgeführt, und er repräsentiert eine nicht deterministische Analyse der Quellensprache des Satzes. Der analysierte Satz wird an den Schritt 25 weitergeleitet, der einzelne Wörter oder Kollokationen identifiziert, die möglicherweise Übersetzungsäquivalente in der Zielsprache aufweisen. Die Schritte 24 und 25 werden vom Dokumentenglossar 13 ausgeführt.
In einem Schritt 26 wird ein Parameter "Element" auf den Wert eins gesetzt und ein Parameter X wird auf den Wert der Grundzahl des Datensatzes D gesetzt, d.h. die Anzahl der Wörter und Kollokationen in diesem. Ein Schritt 27 testet, ob "Element" den Wert X hat oder kleiner ist, und wenn dies der Fall ist, wird ein Schritt 28 ausgeführt. Im Schritt 28 wird das als D_Element identifizierte Wort oder die Kollokation in einer zweisprachigen Ressource, wie dem Wörterbuch 15, nachgeschlagen. Jede der aus dem Wörterbuch erhaltenen möglichen Übersetzungen wird in einem Datensatz D_Element gespeichert. Der Kontext des Worts oder der Kollokation wird berücksichtigt, um zu gewährleisten, dass die Übersetzungen in die Zielsprache Sinn machen. Beispielsweise wird dabei die Möglichkeit berücksichtigt, dass bestimmte Entscheidungen, die zur Übersetzung eines Teils eines Satzes getroffen werden, die Übersetzungen anderer Teile des Satzes beeinflussen können.
In einem Schritt 29 wird der Parameter Element um eins inkrementiert, und der Schritt 27 wird erneut ausgeführt. Diese Schleife dauert an, bis alle Wörter und Kollokationen im Datensatz D übersetzt wurden, woraufhin ein Schritt 30 ausgeführt wird.
Im Schritt 30 wird ein Parameter i auf den Wert 1 gesetzt, und in einem Schritt 31 wird getestet, ob i kleiner als X oder gleich groß ist. Wenn dies der Fall ist, werden in einem Schritt 32 die im Datensatz Ti gespeicherten Übersetzungen in der Zielsprache entsprechend Prioritätsinformation sortiert, wie sie während des Schritts 28 vom zweisprachigen Wörterbuch erhalten wird. So sorgt der Schritt 32 für eine Prioritätszuteilung oder Ordnung jedes Datensatzes von Übersetzungen entsprechend einem Wort oder einer Kollokation in der Quellensprache. Eine Technik zum Herleiten derartiger Prioritätsinformation ist in EP 0 813 160 und GB 2 314 183 offenbart.
In einem Schritt 33 wird i um eins inkrementiert, und der Schritt 31 wird erneut ausgeführt. Die Schleife dauert an, bis durch den Schritt 32 alle Übersetzungen in der Zielsprache sortiert sind, woraufhin in einem Schritt 34 aus der in den Datensätzen Ti gespeicherten Information für 1 ≤ i ≤ X Indizierungsmerkmale erzeugt werden. Insbesondere wählt der Schritt 34 die wahrscheinlichsten Übersetzungen unter Verwendung der im Schritt 32 erzeugten Ordnung aus. Die Quellenwörter und Kollokationen und die restlichen Übersetzungen in der Zielsprache werden dann dadurch als Indizierungsmerkmale angeordnet, dass eine Kennung des Dokuments d, in dem sie enthalten waren oder aus dem sie hergeleitet wurden, angefügt wird. Die sich ergebenden Indizierungsmerkmale sind unter 35 schematisch dargestellt.
Wie es in der 2 dargestellt ist, werden die Merkmale in der Zielsprache in einem Schritt 36 zu einem Index T in der Zielsprache hinzugefügt. Der Parameter d wird in einem Schritt 37 um eins inkrementiert, und der Schritt 21 wird erneut ausgeführt. Diese Prozedur wird wiederholt, bis alle Dokumente in der Quellensprache verarbeitet sind, zu welchem Zeitpunkt der Zielsprachenindex T, wie es bei 38 dargestellt ist, gemeinsam mit dem Quellensprachenindex an die Ausgabeschnittstelle 4 und/oder ein beliebiges der Speichermedien 8, 9, 10 zurückgeliefert wird.
Nun wird ein spezielles Beispiel zum Veranschaulichen dieses Verfahrens beschrieben. Bei diesem speziellen Beispiel liegen die Dokumente in der Quellensprache in Englisch vor, und es ist erforderlich, die Möglichkeit zu schaffen, dass in Englisch oder Holländisch auf sie zugegriffen werden kann. Daher werden die Dokumente jeweils einzeln durch die in der 2 dargestellten Schritte 20, 21 und 37 der in der 3 dargestellten Analyse zugeführt. Beispielsweise wird der Vorgang der in der 3 veranschaulichten Analyse unter Bezugnahme auf ein Dokument mit der Kennzahl #8 beschrieben. Das Dokument #8 verfügt über englische Sätze, die jeweils einzeln analysiert werden. Als Beispiel tritt der folgende englische Satz im Dokument auf:
"air passes out of the furnace".
Der Analysierschritt 24 erkennt, dass "air" ein Hauptwort oder Verb sein könnte, "passes" ein Hauptwort in der Mehrzahl oder die dritte Person eines Verbs usw. sein könnte. Der Schritt 25 identifiziert alle Wörter und Kollokationen im Satz, um die folgende Analyse zu liefern.
air NOMEN
air_VERB
pass_VERB
pass_NOMEN
pass_VERB out_PRÄP
out_PRÄP
out_PRÄP of_PRÄP
of_PRÄP
the_DET
furnace_NOMEN

Im Schritt 28 werden die Wörter und Kollokationen im zweisprachigen Wörterbuch oder Lexikon nachgeschlagen, um holländische Übersetzungen wie folgt herzuleiten ("<nichts>" bedeutet, dass es möglich ist, das Wort oder die Kollokation mit keiner Übersetzung zu versehen):

air_NOMEN	→ {lucht, hemel}
air_VERB	→ {luchten, uiten}
pass_VERB	→ {doorgeven, halen}
pass_NOMEN	{pas, kaart, voldoende}
pass_VERB out_PRÄP	{doorvoeren, flauwvallen}
out_PRÄP	{uit, buiten, extern van}
out_PRÄP of_PRÄP	{uit, buiten}
of_PRÄP	{<nichts>, van}
the_BESTART	{de, het}
furnace_NOMEN	{oven, fornuis}

Im Schritt 32 werden die Übersetzungen in der Zielsprache in der Reihenfolge der Wahrscheinlichkeit dafür geordnet, dass sie korrekt sind, und es wird ihnen der Eingabesatz wie folgt zugewiesen:

air	→[lucht, luchten, hemel, uiten]
pass	[doorvoeren, doorgeven, pas, kaart, voldoende, halen, flauw vallen]
out	→ [uit, bruiten, extern van]
of	→ [<nichts>, van]
the	→ [de, het]
furnace	→ [oven, fornuis]

Im Schritt 34 werden die Indizierungsmerkmale durch Anwenden des eingeschränkten Nicht-Determinismus, d.h. durch Auswählen der wahrscheinlichsten Übersetzungen, erzeugt, und dem Wörtern und Kollokationen in der Quellensprache sowie den Übersetzungen in der Zielsprache werden Kennungen (#8) des aktuell analysierten Dokuments wie folgt zugeordnet:
("air", #8)
("lucht", #8)
("luchten", #8)
("doorvoeren", #8)
("pass", #8)
("doorgeven", #8)
("pas", #8)
("kaart", #8)
("out of", #8)
("uit", #8)
("the", #8)
("de", #8)
("het", #8)
("furnace", #8)
("oven", #8)
Wenn einmal alle Dokumente auf diese Weise analysiert sind, wird der abschließende Index, z. B. in einem Speichermedium, erzeugt, der in der folgenden Form vorliegt:
["aardvark"] → #1,#17,#21,#47,#109
[ "air"] → #5, #8, #87
["out of"] → #8,#10
["doorvoeren"] → #1,#8,#79
["zebra"] → #9,#10,#94,#187
Demgemäß können, wenn es erwünscht ist, Information aus der Dokumentensammlung herauszusuchen, Fragen entweder in Englisch oder in Holländisch durch ein Informationssuchsystem auf den Index angewandt werden. Diese Fragen können in Form von Wörtern oder Kollokationen in Zusammenhang mit dem zu suchenden Gegenstand vorliegen. Das Informationssuchsystem wendet diese auf den Index an, und wenn Übereinstimmungen mit den Indizierungsmerkmalen aufgefunden werden, werden die relevante Dokumentnummer oder -nummern zurückgeliefert, um das Dokument oder die Dokumente zu identifizieren, die wahrscheinlich den interessierenden Gegenstand enthalten.

Claims

Verfahren zum Erzeugen eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere Dokumente (1, 23), mit den folgenden Schritten: – Identifizierung (24, 25) jedes von mindestens einigen der in den Dokumenten (1, 23) vorhandenen Begriffe; – Zugriff (28) auf eine mehrsprachige Ressource (11) mit jedem identifizierten Begriff, um äquivalente Begriffe zu erzeugen, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs; – Erzeugen (34), für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt; – Erzeugen (34), für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und – Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dokumente (1, 23) Dokumente in einer natürlichen Sprache sind.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Glossar (13) gehört.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das Glossar (13) ein eingeschränktes, nicht deterministisches Glossar ist.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Glossar (13) mehrere Übersetzungen mindestens eines der identifizierten Begriffe bildet und jeder Übersetzung eine Priorität entsprechend der Wahrscheinlichkeit dafür zuweist, dass die Übersetzung korrekt ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein zweisprachiges Wörterbuch (15) gehört.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Maschinenübersetzungssystem (14) gehört.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass der Identifizierungsschritt (24, 25) durch einen Teil einer Sprachmarkierungseinrichtung (16) ausgeführt wird.
Vorrichtung zum Erzeugen eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere Dokumente (1, 23), gekennzeichnet durch: – eine Einrichtung (24, 25) zum Identifizieren jedes von mindestens einigen der in den Dokumenten (1, 23) vorhandenen Begriffe; – eine mehrsprachigen Ressource (11, 28) zum Erzeugen äquivalenter Begriffe aus jedem identifizierten Begriff, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs; – eine Einrichtung (34) zum Erzeugen, für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt; – eine Einrichtung (34) zum Erzeugen, für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und – eine Einrichtung zum Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, dass die Dokumente (1, 23) Dokumente in einer natürlichen Sprache sind.
Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Glossar (13) gehört.
Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass das Glossar (13) ein eingeschränktes, nicht deterministisches Glossar ist.
Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass das Glossar (13) so ausgebildet ist, dass es mehrere Übersetzungen mindestens eines der identifizierten Begriffe bildet und jeder Übersetzung eine Priorität entsprechend der Wahrscheinlichkeit dafür zuweist, dass die Übersetzung korrekt ist.
Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Maschinenübersetzungssystem gehört.
Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein zweisprachiges Wörterbuch (15) gehört.
Vorrichtung nach einem der Ansprüche 9, 10 und 15, dadurch gekennzeichnet, dass der Identifizierungsschritt (24, 25) durch einen Teil einer Sprachmarkierungseinrichtung (16) ausgeführt wird.
Vorrichtung nach einem der Ansprüche 9 bis 16, dadurch gekennzeichnet, dass sie einen programmierten Datenprozessor (2, 7) aufweist.
Speichermedium (7), dadurch gekennzeichnet, dass es ein Programm zum Steuern eines Datenprozessors (12) zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 8 enthält.