-
Die
Erfindung betrifft ein Verfahren einer Vorrichtung zum Erzeugen
eines mehrsprachigen Index. Die Erfindung betrifft auch ein Speichermedium
zum Speichern eines Programms zum Ausführen des Verfahrens, einen
Index und ein Speichermedium zum Aufnehmen des Index.
-
Die
hier offenbarten Techniken können
zur Informationsverwaltung verwendet werden. Zu Beispielen derartiger
Anwendungen gehören
Informationssuchsysteme wie Suchmaschinen, zum Abrufen von Information
im Internet oder in Büroinformationssystemen,
Informationsfilterungsanwendungen (die auch als Informationsweiterleitungssysteme
bekannt sind) und Informationsentnahmeanwendungen.
-
Es
existieren viele Datenbanken, die Dokumente in Maschinen-lesbarer
Form enthalten, und auf die zugegriffen werden kann, um Information
zu lokalisieren und abzurufen. In ähnlicher Weise existieren verschiedene
bekannte Techniken zum Lokalisieren von Dokumenten auf Grundlage
eines interessierenden Gegenstands. Ein Beispiel dafür ist die Sammlung
veröffentlichter
Patentbeschreibungen. Alle Patentbeschreibungen werden bei ihrer
Veröffentlichung
entsprechend dem Gegenstand gemäß der internationalen
Klassifizierung indiziert. Der Inhalt jeder Patentbeschreibung wird
entsprechend der internationalen Klassifizierung analysiert, und
die relevanten Klassifizierungsnummern für den Gegenstand bilden Teil
des Kopfs sowohl der gedruckten Patentbeschreibung als auch der
Maschinen-lesbaren Form.
-
Um
Patentbeschreibungen zu lokalisieren, oder tatsächlich auch andere Dokumente,
deren Sammlungen ähnlich
entsprechend dem Gegenstand klassifiziert sind, ist es erforderlich,
die korrekte internationale Klasse auszuwählen und diese bei einem Suchsystem
anzuwenden. Dann lokalisiert das Suchsystem alle Patentbeschreibungen,
die in dieselbe Klasse klassifiziert wurden. Jedoch besteht ein Nachteil
dieses Systems darin, dass effizienter Gebrauch Vertrautheit und
Erfahrung mit der Verwendung des internationalen Klassifizierungssystems
erfordert. Auch stützt
sich diese Technik auf eine korrekte Klassifi zierung von Patentbeschreibungen. Eine
Anwendung ohne Erfahrung kann dazu führen, dass relevante Patentbeschreibungen
nicht aufgefunden werden, wohingegen eine fehlerhafte Klassifizierung
verhindern kann, dass eine relevante Patentbeschreibung durch diese
Technik jemals lokalisiert wird.
-
Eine
andere bekannte Technik zur Informationssuche stützt sich auf die Auswahl von
Schlüsselwörtern, die
dann dazu verwendet werden, nach relevanten Dokumenten, wie Patentbeschreibungen,
zu suchen. In diesem Fall ist es erforderlich, Wörter zu identifizieren, die
vermutlich in den relevanten Dokumenten auftreten, für die es
jedoch unwahrscheinlich ist, dass sie irrelevanten Dokumenten auftreten.
Das Suchen unter Verwenden von Schlüsselwörtern führt dann zu allen Dokumenten,
die die Schlüsselwörter oder
Kombinationen von Schlüsselwörtern enthalten.
-
Bei
dieser Technik existieren mehrere Schwierigkeiten. Beispielsweise
kann es bei einem Gegenstand ohne gut definierte oder Standardterminologie
schwierig oder unmöglich
sein, alle Schlüsselwörter auszuwählen, die
relevante Dokumente identifizieren könnten. Andererseits kann die
Verwendung von allgemeineren Schlüsselwörtern dazu führen, dass
sich sehr große
Anzahlen von Dokumenten ergeben, von denen viele irrelevant sind.
Ferner können
derartige Schlüsselwörter nur
für Dokumente
verwendet werden, die in derselben Sprache vorliegen oder die vollständig oder
teilweise in die Sprache der Schlüsselwörter übersetzt oder abstrahiert wurden.
Die Effektivität
dieser Technik beim Lokalisieren von Dokumenten in anderen Sprachen kann
daher schlecht oder nicht existent sein.
-
D.A.
Hull und G. Greffenstette, "Quering across
Languages: a Dictionary-Based Approach to Multilingual Information
Retrieval", 19th
Annual International Conference on Research and Development in Information
Retrieval (SIGIR '96),
Seiten 49-57, 1996 sowie D.W. Oard und B.J. Dorr, "A Survey of Multilingual
Text Retrieval",
Technical Report UMIACS-TR-96-19, University of Maryland, Institute
for Advanced Computer Studies, April 1996, offenbaren Techniken
zum Ausführen
einer mehrsprachigen Informationssuche, wobei die eine auf einer
Dokumentübersetzung
beruht und die andere auf einer Fragenübersetzung beruht. In jedem
Fall ist jede Übersetzung
durch ein Maschinenübersetzungssystem
auszuführen.
So wird im Fall einer Dokumentübersetzung
ein Maschinenübersetzungssystem
dazu verwendet, eine gesamte Sammlung von Dokumenten in eine Zielsprache
zu übersetzen,
damit Fragen zum Lokalisieren und Heraussuchen von Information,
z. B. auf Grundlage der oben beschriebenen Schlüsselworttechnik, in der Quellen(Dokument)sprache
oder der Zielsprache ausgeführt
werden können.
Bei der anderen Technik werden die Dokumente nicht übersetzt,
sondern jede Frage wird in die Quellen- oder Dokumentsprache übersetzt,
und die Übersetzungen
werden dazu verwendet, die Dokumentensammlung zu durchsuchen.
-
Ein
Nachteil bei der Übersetzung
der Frage besteht darin, dass Fragen häufig einige wenige Wörter enthalten
und sie nicht einmal in einem Satzzusammenhang vorliegen müssen. Demgemäß kann eine
automatische linguistische Verarbeitung derartiger Fragen schwierig
sein, und es kann zu unzufriedenstellenden Ergebnissen führen, wie
einem Fehlschlag beim Lokalisieren relevanter Dokumente und beim
Lokalisieren irrelevanter Dokumente.
-
Die
Verwendung einer automatischen Maschinenübersetzung zum Übersetzen
gesamter Sammlungen von Dokumenten zum Erzeugen eines Index ist
ebenfalls problematisch. Die hinsichtlich der Rechenzeit und des
zusätzlichen
Speichervermögens
eines Speichermediums benötigten
Ressourcen machen diese Technik unattraktiv. Obwohl eine derartige
Verarbeitung nicht in Echtzeit ausgeführt werden muss und da sie
insbesondere nicht als Teil jeder Informationssuchanforderung erforderlich
ist, sind erhebliche Ressourcen notwendig, und es kann sich um ein
dauerndes Erfordernis handeln, wenn weitere Dokumente zur Sammlung
hinzugefügt
werden. Eine Übersetzung
in mehrere Zielsprachen vervielfältigt
die Ressourcenerfordernisse.
-
Maschinenübersetzungssysteme
führen auch
Aufgaben aus, die für
die Informationssuche, und insbesondere zum Erzeugen eines mehrsprachigen
Index, nicht von Nutzen sind. Beispielsweise versuchen Maschinenübersetzungssysteme,
zusätzlich zum Übersetzen
von Wörtern
und Gruppen von Wörtern,
wie sie in Dokumenten enthalten sind, eine Übersetzung guter Qualität zu erzeugen,
die durch Menschen lesbar ist. Wenn die Übersetzung lediglich zum Indizieren
benötigt
wird, sind Funktionen wie eine korrekte Wortreihenfolge in der Zielsprache überflüssig, und
daher werden Rechenressourcen vergeudet.
-
Ein
weiterer Nachteil bei Maschinenübersetzungssystemen
bei Anwendung zum Übersetzen
von Dokumenten in eine Zielsprache zu Indizierungszwecken besteht
darin, dass die Effektivität
des Index ernsthaft beeinträchtigt
werden kann. Einige Maschinenübersetzungssysteme
erzeugen eine einzelne bevorzugte Übersetzung eines eingegebenen
Texts. Anders gesagt, versuchen derartige Systeme, eine einzelne Übersetzung
zu identifizieren und zu erzeugen, die entsprechend automatischen
Kriterien innerhalb des Systems als beste Übersetzung beurteilt wird.
Wenn diese Übersetzung
fehlerhaft ist, ist das Heraussuchen von Information auf Grundlage
der fehlerhaften Übersetzung
ineffektiv, da es möglich
ist, das relevante Dokumente nicht lokalisiert werden und irrelevante
Dokumente lokalisiert werden.
-
Andere
Maschinenübersetzungssysteme versuchen,
alle möglichen Übersetzungen
eingegebenen Texts zu erzeugen. Demgemäß können, selbst dann, wenn die
korrekte Übersetzung
vorliegt, viele andere Übersetzungen
vorhanden sein, die unzweckdienlich oder falsch sind. Die Verwendung
derartiger Übersetzungen
zur Informationssuche führt zur
Erzeugung fehlerhafter Übereinstimmungen
bei dem System gestellten Fragen, so dass sehr große Anzahlen
irrelevanter Dokumente gemeinsam mit den relevanten Dokumenten lokalisiert
werden können.
-
WO
97-08604 offenbart ein Dokumentensuchsystem, bei dem Dokumente und
Fragen gewandelt und in eine gemeinsame, sprachunabhängige, begriffsmäßige Präsentation
gewandelt oder reduziert werden.
-
EP 0 813 160 offenbart eine
Technik für
den Zugriff auf eine Datenbank von einem Typ, bei dem jeder Eintrag über ein
Haupt- oder Kopfwort mit einem oder mehreren zugeordneten Wörtern als
Untereinträgen
verfügt.
Wenn ein Wort einer Frage mit dem Kopfwort eines Eintrags übereinstimmt,
werden die Wörter
der Frage auf das Vorliegen von Wörtern in den Untereinträgen geprüft.
-
EP 0 304 191 offenbart ein
Suchsystem, bei dem Wörter
einer Frage verarbeitet werden, um äquivalente Wörter zur
Verwendung während
eines Suchvorgangs aufzufinden.
-
A.
Ginsberg offenbart in "A
Unified Approach to Automatic Indexing and Information Retrieval", IEEE Expert, IEEE
Inc. New York, USA, Vol. 8, Nr. 5, Oktober 1993, Seiten 46-56, XP
000413472, ISSN: 0885-9000 eine Technik zum Erzeugen eines Index für eine Sammlung
von Dokumenten in einer einzelnen Sprache. Mindestens einige der
in den Dokumenten vorhandenen Begriffe werden identifiziert und
dazu verwendet, auf einen Thesaurus zuzugreifen, um Synonyme, allgemeinere
Begriffe und speziellere Begriffe aufzufinden. Diese Begriffe werden dann
den Dokumenten, in denen sie auftreten, oder mit denen sie in Zusam menhang
stehen, zugeordnet, und sie werden zu einem Index für die Dokumente zusammengestellt.
-
Gemäß einer
ersten Erscheinungsform der Erfindung ist ein Verfahren zum Erzeugen
eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere
Dokumente, geschaffen, das die folgenden Schritte aufweist:
- – Identifizierung
jedes von mindestens einigen der in den Dokumenten vorhandenen Begriffe;
- – Zugriff
auf eine mehrsprachige Ressource mit jedem identifizierten Begriff,
um äquivalente
Begriffe zu erzeugen, die Übersetzungen
des Folgenden sind: des identifizierten Begriffs; eines allgemeineren
Begriffs als des identifizierten Begriffs; und eines spezielleren
Begriffs als des identifizierten Begriffs;
- – Erzeugen,
für jeden
der identifizierten Begriffe, eines ersten Indizierungsmerkmals
mit dem identifizierten Begriff und einer Kennung des oder jedes
Dokuments, in dem der identifizierte Begriff auftritt;
- – Erzeugen,
für jeden
der äquivalenten
Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten
Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte
Begriff, zu dem der äquivalente
Begriff äquivalent
ist, auftritt; und
- – Erzeugen
eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
-
Der
hier verwendete Ausdruck "Begriff" bedeutet ein einzelnes
Wort, eine Gruppe verbundener Wörter,
die in einem Dokument nebeneinander auftreten (kontinuierliche Kollokation),
oder eine Gruppe von Wörtern,
die miteinander verbunden sind, jedoch in mindestens zwei Untergruppen
von Wörtern
unterteilt sind, die einem Dokument durch ein oder mehrere Wörter getrennt
sind, die nicht Elemente der Gruppe sind (nicht kontinuierliche
Kollokationen).
-
Der
Ausdruck "Kennung", wie er hier verwendet
wird, bedeutet jede Maßnahme
zum Identifizieren einer oder mehrerer Stellen eines Begriffs, z.
B. einer Überschrift
oder einer beliebigen Seriennummer eines den Begriff enthaltenden
Dokuments. Der Ausdruck "Indizierungsmerkmal", wie hier verwendet,
bedeutet einen Begriff und eine Kennung.
-
Der
Ausdruck "in linguistischem
Zusammenhang", wie
hier verwendet, bedeutet einen Begriff mit derselben, einer ähnlichen
oder einer einschlägigen Bedeutung.
Beispielsweise beinhalten Begriffe in linguistischem Zusammenhang
Syn onyme, allgemeinere Begriffe sowie speziellere Begriffe in derselben (natürlichen)
Sprache sowie Übersetzungen
in eine andere (natürliche)
Sprache.
-
Obwohl
die Dokumente in einem beliebigen Sprachtyp vorliegen können, wie
einer Computer-Programmierhochsprache, handelt es sich bei den Dokumenten
vorzugsweise um solche in einer natürlichen Sprache.
-
Die
mehrsprachige Ressource kann über
ein Glossar verfügen.
Das Glossar kann ein eingeschränktes,
nicht deterministisches Glossar sein. Das Glossar kann mehrere Übersetzungen
mindestens eines der identifizierten Begriffe bilden, und es kann
jeder Übersetzung
entsprechend der Wahrscheinlichkeit, dass diese korrekt ist, eine
Priorität
zuweisen.
-
Die
mehrsprachige Ressource kann über
ein zweisprachiges Wörterbuch
verfügen.
-
Die
mehrsprachige Ressource kann über
ein Maschinenübersetzungssystem
verfügen.
-
Der
Identifizierungsschritt kann durch einen Teil einer Sprachmarkierungseinrichtung
ausgeführt werden.
-
Gemäß einer
zweiten Erscheinungsform der Erfindung ist eine Vorrichtung zum
Erzeugen eines mehrsprachigen Index, mit Indizierungsmerkmalen, für mehrere
Dokumente, geschaffen, die Folgendes aufweist:
- – eine Einrichtung
zum Identifizieren jedes von mindestens einigen der in den Dokumenten
vorhandenen Begriffe;
- – eine
mehrsprachigen Ressource zum Erzeugen äquivalenter Begriffe aus jedem
identifizierten Begriff, die Übersetzungen
des Folgenden sind: des identifizierten Begriffs; eines allgemeineren
Begriffs als des identifizierten Begriffs; und eines spezielleren
Begriffs als des identifizierten Begriffs;
- – eine
Einrichtung zum Erzeugen, für
jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals
mit dem identifizierten Begriff und einer Kennung des oder jedes
Dokuments, in dem der identifizierte Begriff auftritt;
- – eine
Einrichtung zum Erzeugen, für
jeden der äquivalenten
Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten
Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte
Begriff, zu dem der äquivalente
Begriff äquivalent
ist, auftritt; und
- – eine
Einrichtung zum Erzeugen eines Index mit dem ersten und dem zweiten
Indizierungsmerkmal.
-
Die
mehrsprachige Ressource kann über
ein Glossar verfügen.
Das Glossar kann ein eingeschränktes,
nicht deterministisches Glossar sein. Das Glossar kann so ausgebildet
sein, dass es mehrere Übersetzungen
mindestens eines der identifizierten Begriffe bildet, und es kann
jeder Übersetzung
entsprechend der Wahrscheinlichkeit, dass diese korrekt ist, eine
Priorität
zuweisen.
-
Die
mehrsprachige Ressource kann über
ein Maschinenübersetzungssystem
verfügen.
-
Die
mehrsprachige Ressource kann über
ein zweisprachiges Wörterbuch
verfügen.
-
Die
Identifizierungseinrichtung kann über einen Teil einer Sprachmarkierungseinrichtung
verfügen.
-
Die
Vorrichtung kann über
einen programmierten Datenprozessor verfügen.
-
Gemäß einer
dritten Erscheinungsform der Erfindung ist ein Speichermedium geschaffen,
das dadurch gekennzeichnet ist, dass es ein Programm zum Steuern
eines Datenprozessors zum Ausführen eines
Verfahrens gemäß der ersten
Erscheinungsform der Erfindung enthält.
-
So
ist es möglich,
einen mehrsprachigen Index für
eine Sammlung von Dokumenten mit Indizierungsmerkmalen zu erzeugen,
die nicht auf die in den Dokumenten auftretenden Begriffe beschränkt sind. Unter
Verwendung mehrsprachiger Ressourcen kann die Indizierung auf effiziente
und effektive Weise in anderen Sprache als der Quellen- oder Dokumentsprache
ausgeführt
werden.
-
Obwohl
jeder beliebige Typ einer mehrsprachigen Ressource verwendet werden
kann, zeigen leichte, linguistische quervernetzte Glossierungssysteme
Vorteile. Ein derartiges Glossierungssystem nutzt eingeschränkten Nichtdeterminismus
zum Erzeugen plausibler Übersetzungen
in der Zielsprache, die in Indizierungsmerkmalen zu verwenden sind. Derartige
Glossierungssysteme oder Glossare können vom in
EP 0 813 160 und
GB 2 314 183 offenbarten Typ sein.
Dieser Glossartyp kann sequenzielle (kontinuierliche) und nicht-sequenzielle
(nichtkontinuierliche) Kollokationen, die durch ein Kopfwort indiziert
werden, er kennen und übersetzen.
Ferner kann dieses System dazu verwendet werden, alternativen Übersetzungen
Prioritäten
auf solche Weise zuzuschreiben, dass konsistente Übersetzungen
vollständiger
Textabschnitte unabhängig
davon immer erhalten werden, welche von mehreren Übersetzungen
eines Worts oder einer Kollokation tatsächlich ausgewählt wird.
Ferner ermöglicht
es die Prioritätszuteilung
für alternative Übersetzungen,
eine eingeschränkte
Anzahl derartiger Übersetzungen
zu verwenden, z. B. auf Grundlage der Prioritätsinformation.
-
Derartige
Glossare sind effizienter als Maschinenübersetzungssysteme. Ein Index
erfordert lediglich die Identifizierung und Übersetzung von Begriffen, und
er erfordert keine anderen Verarbeitungsschritte, wie eine Syntaxanalyse
und die Erzeugung einer lesbaren Übersetzung, wie sie durch Maschinenübersetzungssysteme
erstellt wird. So ist die Verwendung eines Glossierungsvorgangs
rechnermäßig dadurch
effizient, dass wesentlich weniger Rechenzeit erforderlich ist.
-
Durch
die Verwendung eines Glossars können
die Probleme in Zusammenhang mit der Auswahl durch ein Maschinenübersetzungssystem
betreffend eine einzelne, wahrscheinlichste, jedoch möglicherweise
fehlerhafte Übersetzung
und die Auswahl aller möglicher Übersetzungen
einschließlich
derjenigen, die falsch sind und für Indizierungszwecke völlig ungeeignet
sein können, überwinden. Unter
Verwendung nicht-deterministischer Techniken kann eine eingeschränkte Anzahl
der wahrscheinlichsten Übersetzungen
der Begriffe geliefert werden. Es existiert eine sehr hohe Wahrscheinlichkeit
dafür, dass
diese eingeschränkte
Anzahl von Übersetzungen,
die aus allen möglichen Übersetzungen
ausgewählt
werden, die beste oder korrekte Übersetzung enthält. Demgemäß liefert
das Zugreifen auf Dokumente unter Verwendung von auf diese Weise
erzeugten Indizes für
eine hohe Wahrscheinlichkeit dafür,
dass alle relevanten Dokumente lokalisiert werden, während die
Anzahl irrelevanter Dokumente, die andernfalls lokalisiert werden
könnten,
verringert werden kann.
-
Die
Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beispielhaft
weiter beschrieben.
-
1 ist
ein schematisches Blockdiagramm einer Vorrichtung zum Erzeugen eines
Index, die eine Ausführungsform
der Erfindung bildet; und
-
2 und 3 sind
Flussdiagramme zum Veranschaulichen eines Verfahrens zum Erzeugen eines
Index, das eine Ausführungsform
der Erfindung bildet und von der in der 1 dargestellten
Vorrichtung ausgeführt
wird.
-
Die 1 zeigt
eine Vorrichtung zum Erzeugen eines Index für mehrere Dokumente in Maschinen-lesbarer
Form, die in einem Dokumentenspeicher 1, wie einer Magnetplatte
oder einem optischen Speichermedium wie einer CD-ROM gespeichert sind.
Die Vorrichtung ist vom Typ eines programmierten Datenprozessors,
wie eines Computers, und sie verfügt über einen programmierbaren
Datenprozessor 2, der mit einer Eingangsschnittstelle 3,
wie einer Tastatur und einer Maus, und einer Ausgangsschnittstelle 4,
die mit einem Display und einem Drucker, versehen ist. Der Datenprozessor 2 verfügt über einen "Arbeitsspeicher" in Form eines Direktzugriffsspeichers
(RAM) 5 zum Zwischenspeichern von Daten während Datenverarbeitungsvorgängen. Zum Speichern
von Daten, die aufrechterhalten werden müssen, z. B. dann, wenn die
Spannungsversorgung der Vorrichtung abgeschaltet wird, ist ein nichtflüchtiger
Lese/Schreib-Speicher 6 vorhanden. Ein Programmspeicher 7 in
Form eines Festwertspeichers (ROM) enthält ein Programm zum Steuern
des Betriebs des Datenprozessors 2.
-
Die
Vorrichtung kann auch mit anderen Speichervorrichtungen versehen
sein. Beispielsweise können
dazu geeignete Laufwerke für
CD-ROMs 8, Disketten 9 sowie digitale Videoplatten
(DVDs) 10 gehören.
Diese Vorrichtungen können
vom nur Lesetyp oder, z. B. bei Disketten 9, vom Lese/Schreib-Typ sein.
Derartige Vorrichtungen können
den Dokumentenspeicher 1 bilden, und sie können ein
Ausgabemedium der Vorrichtung bilden. Beispielsweise kann der durch
die Vorrichtung erzeugte Index auf jedes der in der 1 dargestellten
Speichermedien 8, 9, 10 geschrieben werden.
-
Der
Programmspeicher 7 enthält
das oben genannte Programm, das vom Datenprozessor 2 ausgeführt wird,
und/oder die mehrsprachige Ressource 11 und/oder den Thesaurus 12,
um die hier beschriebenen verschiedenen Operationen auszuführen. Das
Programm kann in einer beliebigen einer Anzahl bekannter Computersprachen
geschrieben sein, wie es für
den Fachmann auf dem Gebiet der Computerprogrammierung leicht ersichtlich
ist. Demgemäß werden
weitere Einzelheiten betreffend den speziellen Code selbst der Kürze halber
weggelassen.
-
Eine
mehrsprachige Ressource 11 und ein Maschinen-lesbarer Thesaurus 12 sind
in der 1 als individuelle Vorrichtungen dargestellt.
Jedoch können
diese Vorrichtungen innerhalb der bereits beschriebenen Komponenten
der Vorrichtung realisiert sein. Beispielsweise kann jeder der Speicher
und Vorrichtungen 7 bis 10 die Daten enthalten,
und der Speicher 7 kann Programme zum Ausführen der mehrsprachige
Ressource und/oder des Thesaurus 12 enthalten.
-
Die
mehrsprachige Ressource
11 zeigt vier Ressourcen, die während des
Betriebs der Vorrichtung verwendet werden können. Ein Dokumentenglossar
13 ist
eine "Vorrichtung", die eine "geordnete" Anzahl von Wörtern oder
Kollokationen (Gruppen von Wörtern)
in einer Quellensprache mit Übersetzungen
in eine Zielsprache markiert. Das Glossar ist vorzugsweise vom Typ,
der die Übersetzungen
jedes Worts oder einer Kollokation in der Reihenfolge der Wahrscheinlichkeit
dafür,
dass es sich um die "korrekte" Übersetzung handelt, ordnet.
Es ist vorzugsweise vom eingeschränkten, nicht deterministischen Typ,
wie z. B. in
EP 0 813 160 und
GB 2 314 183 offenbart.
-
Obwohl
das Dokumentenglossar 13 der bevorzugte Typ einer mehrsprachige
Ressource für
die Vorrichtung ist, sind in der 1 andere
Ressourcentypen veranschaulicht. Demgemäß kann die mehrsprachige Ressource 11 über ein
Maschinenübersetzungssystem 14 verfügen. Ein
geeignetes Maschinenübersetzungssystem
ist von W. John Hutchins und Harold L. Somers in "An Introduction to
Maschine Translation",
Academic press, 1992, ISBN 0-12-362830-X offenbart. Ein Maschinenübersetzungssystem
führt eine
tiefere Analyse in der Quellensprache als ein Glossar aus, und es
führt auch normalerweise
als "Erzeugung" bezeichnete Schritte aus,
die versuchen, die Übersetzung
von Wörtern oder
Kollokationen in der Quellensprache in die Zielsprache in die korrekte
grammatikalische Reihenfolge für
die Zielsprache zu bringen und die korrekten Beugungen usw. zu erzeugen.
Wie hier beschrieben, führen
derartige Maschinenübersetzungssystem mehr
Verarbeitung aus, und sie benötigen
mehr Ressourcen als ein Glossar, jedoch können sie unter geeigneten Umständen als
die mehrsprachige Ressource 11 verwendet werden.
-
Die
mehrsprachige Ressource 11 kann über ein mehrsprachiges Wörterbuch 15 vom
Maschinen-lesbaren Typ verfügen.
Beispielsweise muss der Text in der Quellensprache nicht verarbeitet
werden, sondern er kann einfach in Wörtern, und möglicherweise
Kollokationen, unterteilt werden, und dann dazu verwendet werden,
auf das Wörterbuch 15 zuzugreifen,
um wortweise Übersetzungen
des Texts zu erstellen.
-
Die
mehrsprachige Ressource 11 kann über einen Teil einer Sprachmarkierungseinrichtung 16 verfügen. Eine
derartige "Vorrichtung" führt eine
begrenzte grammatikalische Analyse des Texts in der Quellensprache
aus, um den Sprachteil jedes Worts zu bestimmen. Das Ergebnis dieser
eingeschränkten Analyse
kann dann auf das zweisprachige Wörterbuch 15 angewandt
werden, um eine verbesserte Wortweise Übersetzung zu liefern, als
sie unter Verwendung alleine des Wörterbuchs 15 erhalten
werden kann.
-
Die 2 und 3 veranschaulichen
ein Verfahren zum Erzeugen eines Index, das von der in der 1 dargestellten
Vorrichtung ausgeführt
werden kann. Der Dokumentenspeicher 1 enthält eine Sammlung
S von Dokumenten in einer Quellen-Sprache, wie einer natürlichen
Sprache. Nur zur Veranschaulichung wird der Betrieb für den Fall
beschrieben, dass die Dokumente der Sammlung S in Englisch vorliegen
und ein Index für
Englisch und Holländisch
benötigt
wird.
-
In
einem Schritt 20 wird ein Parameter "d" auf
den Wert eins eingestellt, und ein Parameter N wird auf die Grundzahl
der Dokumentensammlung S, d.h. die Anzahl der Dokumente in der Sammlung,
eingestellt. Ein Schritt 21 testet, ob "d" kleiner
als N oder gleich groß ist,
und wenn dies der Fall ist, wird eine Routine 22 ausgeführt, die
einen Indizierungsmerkmalsgenerator für linguistische Quervernetzung
auf ein als "d" gekennzeichnetes
Dokument anwendet, was in der 3 detaillierter
dargestellt ist.
-
Das
Dokument d in der Quellensprache ist mit 23 dargestellt,
und es wird in einem Schritt 24 an eine "wahlweise" nicht deterministische
Analyse und dann an einen Schritt 25 geliefert, der individuelle
Dokumenten Wörter
und Kollokationen aus dem Dokument d identifiziert und sie in einem
Datensatz d speichert. Der Schritt 24 wird für jeden
Satz des Dokuments d der Reihe nach ausgeführt, und er repräsentiert
eine nicht deterministische Analyse der Quellensprache des Satzes.
Der analysierte Satz wird an den Schritt 25 weitergeleitet,
der einzelne Wörter
oder Kollokationen identifiziert, die möglicherweise Übersetzungsäquivalente
in der Zielsprache aufweisen. Die Schritte 24 und 25 werden
vom Dokumentenglossar 13 ausgeführt.
-
In
einem Schritt 26 wird ein Parameter "Element" auf den Wert eins gesetzt und ein Parameter
X wird auf den Wert der Grundzahl des Datensatzes D gesetzt, d.h.
die Anzahl der Wörter
und Kollokationen in diesem. Ein Schritt 27 testet, ob "Element" den Wert X hat oder
kleiner ist, und wenn dies der Fall ist, wird ein Schritt 28 ausgeführt. Im
Schritt 28 wird das als DElement identifizierte
Wort oder die Kollokation in einer zweisprachigen Ressource, wie
dem Wörterbuch 15,
nachgeschlagen. Jede der aus dem Wörterbuch erhaltenen möglichen Übersetzungen
wird in einem Datensatz DElement gespeichert.
Der Kontext des Worts oder der Kollokation wird berücksichtigt,
um zu gewährleisten,
dass die Übersetzungen
in die Zielsprache Sinn machen. Beispielsweise wird dabei die Möglichkeit
berücksichtigt,
dass bestimmte Entscheidungen, die zur Übersetzung eines Teils eines
Satzes getroffen werden, die Übersetzungen
anderer Teile des Satzes beeinflussen können.
-
In
einem Schritt 29 wird der Parameter Element um eins inkrementiert,
und der Schritt 27 wird erneut ausgeführt. Diese Schleife dauert
an, bis alle Wörter
und Kollokationen im Datensatz D übersetzt wurden, woraufhin
ein Schritt 30 ausgeführt
wird.
-
Im
Schritt
30 wird ein Parameter i auf den Wert 1 gesetzt,
und in einem Schritt
31 wird getestet, ob i kleiner als
X oder gleich groß ist.
Wenn dies der Fall ist, werden in einem Schritt
32 die
im Datensatz Ti gespeicherten Übersetzungen
in der Zielsprache entsprechend Prioritätsinformation sortiert, wie
sie während
des Schritts
28 vom zweisprachigen Wörterbuch erhalten wird. So
sorgt der Schritt
32 für
eine Prioritätszuteilung
oder Ordnung jedes Datensatzes von Übersetzungen entsprechend einem
Wort oder einer Kollokation in der Quellensprache. Eine Technik
zum Herleiten derartiger Prioritätsinformation
ist in
EP 0 813 160 und
GB 2 314 183 offenbart.
-
In
einem Schritt 33 wird i um eins inkrementiert, und der
Schritt 31 wird erneut ausgeführt. Die Schleife dauert an,
bis durch den Schritt 32 alle Übersetzungen in der Zielsprache
sortiert sind, woraufhin in einem Schritt 34 aus der in
den Datensätzen
Ti gespeicherten Information für
1 ≤ i ≤ X Indizierungsmerkmale
erzeugt werden. Insbesondere wählt
der Schritt 34 die wahrscheinlichsten Übersetzungen unter Verwendung
der im Schritt 32 erzeugten Ordnung aus. Die Quellenwörter und
Kollokationen und die restlichen Übersetzungen in der Zielsprache
werden dann dadurch als Indizierungsmerkmale angeordnet, dass eine
Kennung des Dokuments d, in dem sie enthalten waren oder aus dem
sie hergeleitet wurden, angefügt
wird. Die sich ergebenden Indizierungsmerkmale sind unter 35 schematisch
dargestellt.
-
Wie
es in der 2 dargestellt ist, werden die
Merkmale in der Zielsprache in einem Schritt 36 zu einem
Index T in der Zielsprache hinzugefügt. Der Parameter d wird in
einem Schritt 37 um eins inkrementiert, und der Schritt 21 wird
erneut ausgeführt. Diese
Prozedur wird wiederholt, bis alle Dokumente in der Quellensprache
verarbeitet sind, zu welchem Zeitpunkt der Zielsprachenindex T,
wie es bei 38 dargestellt ist, gemeinsam mit dem Quellensprachenindex
an die Ausgabeschnittstelle 4 und/oder ein beliebiges der
Speichermedien 8, 9, 10 zurückgeliefert wird.
-
Nun
wird ein spezielles Beispiel zum Veranschaulichen dieses Verfahrens
beschrieben. Bei diesem speziellen Beispiel liegen die Dokumente
in der Quellensprache in Englisch vor, und es ist erforderlich,
die Möglichkeit
zu schaffen, dass in Englisch oder Holländisch auf sie zugegriffen
werden kann. Daher werden die Dokumente jeweils einzeln durch die
in der 2 dargestellten Schritte 20, 21 und 37 der
in der 3 dargestellten Analyse zugeführt. Beispielsweise wird der
Vorgang der in der 3 veranschaulichten Analyse
unter Bezugnahme auf ein Dokument mit der Kennzahl #8 beschrieben.
Das Dokument #8 verfügt über englische
Sätze,
die jeweils einzeln analysiert werden. Als Beispiel tritt der folgende englische
Satz im Dokument auf:
"air
passes out of the furnace".
-
Der
Analysierschritt 24 erkennt, dass "air" ein Hauptwort
oder Verb sein könnte, "passes" ein Hauptwort in
der Mehrzahl oder die dritte Person eines Verbs usw. sein könnte. Der
Schritt 25 identifiziert alle Wörter und Kollokationen im Satz,
um die folgende Analyse zu liefern.
air NOMEN
air_VERB
pass_VERB
pass_NOMEN
pass_VERB
out_PRÄP
out_PRÄP
out_PRÄP of_PRÄP
of_PRÄP
the_DET
furnace_NOMEN
-
Im
Schritt
28 werden die Wörter
und Kollokationen im zweisprachigen Wörterbuch oder Lexikon nachgeschlagen,
um holländische Übersetzungen wie
folgt herzuleiten ("<nichts>" bedeutet, dass es möglich ist, das Wort oder die
Kollokation mit keiner Übersetzung
zu versehen):
air_NOMEN | → {lucht,
hemel} |
air_VERB | → {luchten,
uiten} |
pass_VERB | → {doorgeven,
halen} |
pass_NOMEN | {pas,
kaart, voldoende} |
pass_VERB
out_PRÄP | {doorvoeren,
flauwvallen} |
out_PRÄP | {uit,
buiten, extern van} |
out_PRÄP of_PRÄP | {uit,
buiten} |
of_PRÄP | {<nichts>, van} |
the_BESTART | {de,
het} |
furnace_NOMEN | {oven,
fornuis} |
-
Im
Schritt
32 werden die Übersetzungen
in der Zielsprache in der Reihenfolge der Wahrscheinlichkeit dafür geordnet,
dass sie korrekt sind, und es wird ihnen der Eingabesatz wie folgt
zugewiesen:
air | →[lucht,
luchten, hemel, uiten] |
pass | [doorvoeren,
doorgeven, pas, kaart, voldoende, halen, flauw vallen] |
out | → [uit, bruiten,
extern van] |
of | → [<nichts>, van] |
the | → [de, het] |
furnace | → [oven,
fornuis] |
-
Im
Schritt 34 werden die Indizierungsmerkmale durch Anwenden
des eingeschränkten Nicht-Determinismus,
d.h. durch Auswählen
der wahrscheinlichsten Übersetzungen,
erzeugt, und dem Wörtern
und Kollokationen in der Quellensprache sowie den Übersetzungen
in der Zielsprache werden Kennungen (#8) des aktuell analysierten
Dokuments wie folgt zugeordnet:
("air",
#8)
("lucht", #8)
("luchten", #8)
("doorvoeren", #8)
("pass", #8)
("doorgeven", #8)
("pas", #8)
("kaart", #8)
("out of", #8)
("uit", #8)
("the", #8)
("de", #8)
("het", #8)
("furnace", #8)
("oven", #8)
-
Wenn
einmal alle Dokumente auf diese Weise analysiert sind, wird der
abschließende
Index, z. B. in einem Speichermedium, erzeugt, der in der folgenden
Form vorliegt:
["aardvark"] → #1,#17,#21,#47,#109
[ "air"] → #5, #8,
#87
["out of"] → #8,#10
["doorvoeren"] → #1,#8,#79
["zebra"] → #9,#10,#94,#187
-
Demgemäß können, wenn
es erwünscht
ist, Information aus der Dokumentensammlung herauszusuchen, Fragen
entweder in Englisch oder in Holländisch durch ein Informationssuchsystem
auf den Index angewandt werden. Diese Fragen können in Form von Wörtern oder
Kollokationen in Zusammenhang mit dem zu suchenden Gegenstand vorliegen. Das
Informationssuchsystem wendet diese auf den Index an, und wenn Übereinstimmungen
mit den Indizierungsmerkmalen aufgefunden werden, werden die relevante
Dokumentnummer oder -nummern zurückgeliefert,
um das Dokument oder die Dokumente zu identifizieren, die wahrscheinlich
den interessierenden Gegenstand enthalten.