DE69930690T2 - Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium - Google Patents

Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium Download PDF

Info

Publication number
DE69930690T2
DE69930690T2 DE69930690T DE69930690T DE69930690T2 DE 69930690 T2 DE69930690 T2 DE 69930690T2 DE 69930690 T DE69930690 T DE 69930690T DE 69930690 T DE69930690 T DE 69930690T DE 69930690 T2 DE69930690 T2 DE 69930690T2
Authority
DE
Germany
Prior art keywords
term
identified
documents
terms
glossary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69930690T
Other languages
English (en)
Other versions
DE69930690D1 (de
Inventor
Jan-Jaap Gloucester Green Ijdens
Victor Sandford on Thames Poznanski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of DE69930690D1 publication Critical patent/DE69930690D1/de
Application granted granted Critical
Publication of DE69930690T2 publication Critical patent/DE69930690T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Description

  • Die Erfindung betrifft ein Verfahren einer Vorrichtung zum Erzeugen eines mehrsprachigen Index. Die Erfindung betrifft auch ein Speichermedium zum Speichern eines Programms zum Ausführen des Verfahrens, einen Index und ein Speichermedium zum Aufnehmen des Index.
  • Die hier offenbarten Techniken können zur Informationsverwaltung verwendet werden. Zu Beispielen derartiger Anwendungen gehören Informationssuchsysteme wie Suchmaschinen, zum Abrufen von Information im Internet oder in Büroinformationssystemen, Informationsfilterungsanwendungen (die auch als Informationsweiterleitungssysteme bekannt sind) und Informationsentnahmeanwendungen.
  • Es existieren viele Datenbanken, die Dokumente in Maschinen-lesbarer Form enthalten, und auf die zugegriffen werden kann, um Information zu lokalisieren und abzurufen. In ähnlicher Weise existieren verschiedene bekannte Techniken zum Lokalisieren von Dokumenten auf Grundlage eines interessierenden Gegenstands. Ein Beispiel dafür ist die Sammlung veröffentlichter Patentbeschreibungen. Alle Patentbeschreibungen werden bei ihrer Veröffentlichung entsprechend dem Gegenstand gemäß der internationalen Klassifizierung indiziert. Der Inhalt jeder Patentbeschreibung wird entsprechend der internationalen Klassifizierung analysiert, und die relevanten Klassifizierungsnummern für den Gegenstand bilden Teil des Kopfs sowohl der gedruckten Patentbeschreibung als auch der Maschinen-lesbaren Form.
  • Um Patentbeschreibungen zu lokalisieren, oder tatsächlich auch andere Dokumente, deren Sammlungen ähnlich entsprechend dem Gegenstand klassifiziert sind, ist es erforderlich, die korrekte internationale Klasse auszuwählen und diese bei einem Suchsystem anzuwenden. Dann lokalisiert das Suchsystem alle Patentbeschreibungen, die in dieselbe Klasse klassifiziert wurden. Jedoch besteht ein Nachteil dieses Systems darin, dass effizienter Gebrauch Vertrautheit und Erfahrung mit der Verwendung des internationalen Klassifizierungssystems erfordert. Auch stützt sich diese Technik auf eine korrekte Klassifi zierung von Patentbeschreibungen. Eine Anwendung ohne Erfahrung kann dazu führen, dass relevante Patentbeschreibungen nicht aufgefunden werden, wohingegen eine fehlerhafte Klassifizierung verhindern kann, dass eine relevante Patentbeschreibung durch diese Technik jemals lokalisiert wird.
  • Eine andere bekannte Technik zur Informationssuche stützt sich auf die Auswahl von Schlüsselwörtern, die dann dazu verwendet werden, nach relevanten Dokumenten, wie Patentbeschreibungen, zu suchen. In diesem Fall ist es erforderlich, Wörter zu identifizieren, die vermutlich in den relevanten Dokumenten auftreten, für die es jedoch unwahrscheinlich ist, dass sie irrelevanten Dokumenten auftreten. Das Suchen unter Verwenden von Schlüsselwörtern führt dann zu allen Dokumenten, die die Schlüsselwörter oder Kombinationen von Schlüsselwörtern enthalten.
  • Bei dieser Technik existieren mehrere Schwierigkeiten. Beispielsweise kann es bei einem Gegenstand ohne gut definierte oder Standardterminologie schwierig oder unmöglich sein, alle Schlüsselwörter auszuwählen, die relevante Dokumente identifizieren könnten. Andererseits kann die Verwendung von allgemeineren Schlüsselwörtern dazu führen, dass sich sehr große Anzahlen von Dokumenten ergeben, von denen viele irrelevant sind. Ferner können derartige Schlüsselwörter nur für Dokumente verwendet werden, die in derselben Sprache vorliegen oder die vollständig oder teilweise in die Sprache der Schlüsselwörter übersetzt oder abstrahiert wurden. Die Effektivität dieser Technik beim Lokalisieren von Dokumenten in anderen Sprachen kann daher schlecht oder nicht existent sein.
  • D.A. Hull und G. Greffenstette, "Quering across Languages: a Dictionary-Based Approach to Multilingual Information Retrieval", 19th Annual International Conference on Research and Development in Information Retrieval (SIGIR '96), Seiten 49-57, 1996 sowie D.W. Oard und B.J. Dorr, "A Survey of Multilingual Text Retrieval", Technical Report UMIACS-TR-96-19, University of Maryland, Institute for Advanced Computer Studies, April 1996, offenbaren Techniken zum Ausführen einer mehrsprachigen Informationssuche, wobei die eine auf einer Dokumentübersetzung beruht und die andere auf einer Fragenübersetzung beruht. In jedem Fall ist jede Übersetzung durch ein Maschinenübersetzungssystem auszuführen. So wird im Fall einer Dokumentübersetzung ein Maschinenübersetzungssystem dazu verwendet, eine gesamte Sammlung von Dokumenten in eine Zielsprache zu übersetzen, damit Fragen zum Lokalisieren und Heraussuchen von Information, z. B. auf Grundlage der oben beschriebenen Schlüsselworttechnik, in der Quellen(Dokument)sprache oder der Zielsprache ausgeführt werden können. Bei der anderen Technik werden die Dokumente nicht übersetzt, sondern jede Frage wird in die Quellen- oder Dokumentsprache übersetzt, und die Übersetzungen werden dazu verwendet, die Dokumentensammlung zu durchsuchen.
  • Ein Nachteil bei der Übersetzung der Frage besteht darin, dass Fragen häufig einige wenige Wörter enthalten und sie nicht einmal in einem Satzzusammenhang vorliegen müssen. Demgemäß kann eine automatische linguistische Verarbeitung derartiger Fragen schwierig sein, und es kann zu unzufriedenstellenden Ergebnissen führen, wie einem Fehlschlag beim Lokalisieren relevanter Dokumente und beim Lokalisieren irrelevanter Dokumente.
  • Die Verwendung einer automatischen Maschinenübersetzung zum Übersetzen gesamter Sammlungen von Dokumenten zum Erzeugen eines Index ist ebenfalls problematisch. Die hinsichtlich der Rechenzeit und des zusätzlichen Speichervermögens eines Speichermediums benötigten Ressourcen machen diese Technik unattraktiv. Obwohl eine derartige Verarbeitung nicht in Echtzeit ausgeführt werden muss und da sie insbesondere nicht als Teil jeder Informationssuchanforderung erforderlich ist, sind erhebliche Ressourcen notwendig, und es kann sich um ein dauerndes Erfordernis handeln, wenn weitere Dokumente zur Sammlung hinzugefügt werden. Eine Übersetzung in mehrere Zielsprachen vervielfältigt die Ressourcenerfordernisse.
  • Maschinenübersetzungssysteme führen auch Aufgaben aus, die für die Informationssuche, und insbesondere zum Erzeugen eines mehrsprachigen Index, nicht von Nutzen sind. Beispielsweise versuchen Maschinenübersetzungssysteme, zusätzlich zum Übersetzen von Wörtern und Gruppen von Wörtern, wie sie in Dokumenten enthalten sind, eine Übersetzung guter Qualität zu erzeugen, die durch Menschen lesbar ist. Wenn die Übersetzung lediglich zum Indizieren benötigt wird, sind Funktionen wie eine korrekte Wortreihenfolge in der Zielsprache überflüssig, und daher werden Rechenressourcen vergeudet.
  • Ein weiterer Nachteil bei Maschinenübersetzungssystemen bei Anwendung zum Übersetzen von Dokumenten in eine Zielsprache zu Indizierungszwecken besteht darin, dass die Effektivität des Index ernsthaft beeinträchtigt werden kann. Einige Maschinenübersetzungssysteme erzeugen eine einzelne bevorzugte Übersetzung eines eingegebenen Texts. Anders gesagt, versuchen derartige Systeme, eine einzelne Übersetzung zu identifizieren und zu erzeugen, die entsprechend automatischen Kriterien innerhalb des Systems als beste Übersetzung beurteilt wird. Wenn diese Übersetzung fehlerhaft ist, ist das Heraussuchen von Information auf Grundlage der fehlerhaften Übersetzung ineffektiv, da es möglich ist, das relevante Dokumente nicht lokalisiert werden und irrelevante Dokumente lokalisiert werden.
  • Andere Maschinenübersetzungssysteme versuchen, alle möglichen Übersetzungen eingegebenen Texts zu erzeugen. Demgemäß können, selbst dann, wenn die korrekte Übersetzung vorliegt, viele andere Übersetzungen vorhanden sein, die unzweckdienlich oder falsch sind. Die Verwendung derartiger Übersetzungen zur Informationssuche führt zur Erzeugung fehlerhafter Übereinstimmungen bei dem System gestellten Fragen, so dass sehr große Anzahlen irrelevanter Dokumente gemeinsam mit den relevanten Dokumenten lokalisiert werden können.
  • WO 97-08604 offenbart ein Dokumentensuchsystem, bei dem Dokumente und Fragen gewandelt und in eine gemeinsame, sprachunabhängige, begriffsmäßige Präsentation gewandelt oder reduziert werden.
  • EP 0 813 160 offenbart eine Technik für den Zugriff auf eine Datenbank von einem Typ, bei dem jeder Eintrag über ein Haupt- oder Kopfwort mit einem oder mehreren zugeordneten Wörtern als Untereinträgen verfügt. Wenn ein Wort einer Frage mit dem Kopfwort eines Eintrags übereinstimmt, werden die Wörter der Frage auf das Vorliegen von Wörtern in den Untereinträgen geprüft.
  • EP 0 304 191 offenbart ein Suchsystem, bei dem Wörter einer Frage verarbeitet werden, um äquivalente Wörter zur Verwendung während eines Suchvorgangs aufzufinden.
  • A. Ginsberg offenbart in "A Unified Approach to Automatic Indexing and Information Retrieval", IEEE Expert, IEEE Inc. New York, USA, Vol. 8, Nr. 5, Oktober 1993, Seiten 46-56, XP 000413472, ISSN: 0885-9000 eine Technik zum Erzeugen eines Index für eine Sammlung von Dokumenten in einer einzelnen Sprache. Mindestens einige der in den Dokumenten vorhandenen Begriffe werden identifiziert und dazu verwendet, auf einen Thesaurus zuzugreifen, um Synonyme, allgemeinere Begriffe und speziellere Begriffe aufzufinden. Diese Begriffe werden dann den Dokumenten, in denen sie auftreten, oder mit denen sie in Zusam menhang stehen, zugeordnet, und sie werden zu einem Index für die Dokumente zusammengestellt.
  • Gemäß einer ersten Erscheinungsform der Erfindung ist ein Verfahren zum Erzeugen eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere Dokumente, geschaffen, das die folgenden Schritte aufweist:
    • – Identifizierung jedes von mindestens einigen der in den Dokumenten vorhandenen Begriffe;
    • – Zugriff auf eine mehrsprachige Ressource mit jedem identifizierten Begriff, um äquivalente Begriffe zu erzeugen, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs;
    • – Erzeugen, für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt;
    • – Erzeugen, für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und
    • – Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
  • Der hier verwendete Ausdruck "Begriff" bedeutet ein einzelnes Wort, eine Gruppe verbundener Wörter, die in einem Dokument nebeneinander auftreten (kontinuierliche Kollokation), oder eine Gruppe von Wörtern, die miteinander verbunden sind, jedoch in mindestens zwei Untergruppen von Wörtern unterteilt sind, die einem Dokument durch ein oder mehrere Wörter getrennt sind, die nicht Elemente der Gruppe sind (nicht kontinuierliche Kollokationen).
  • Der Ausdruck "Kennung", wie er hier verwendet wird, bedeutet jede Maßnahme zum Identifizieren einer oder mehrerer Stellen eines Begriffs, z. B. einer Überschrift oder einer beliebigen Seriennummer eines den Begriff enthaltenden Dokuments. Der Ausdruck "Indizierungsmerkmal", wie hier verwendet, bedeutet einen Begriff und eine Kennung.
  • Der Ausdruck "in linguistischem Zusammenhang", wie hier verwendet, bedeutet einen Begriff mit derselben, einer ähnlichen oder einer einschlägigen Bedeutung. Beispielsweise beinhalten Begriffe in linguistischem Zusammenhang Syn onyme, allgemeinere Begriffe sowie speziellere Begriffe in derselben (natürlichen) Sprache sowie Übersetzungen in eine andere (natürliche) Sprache.
  • Obwohl die Dokumente in einem beliebigen Sprachtyp vorliegen können, wie einer Computer-Programmierhochsprache, handelt es sich bei den Dokumenten vorzugsweise um solche in einer natürlichen Sprache.
  • Die mehrsprachige Ressource kann über ein Glossar verfügen. Das Glossar kann ein eingeschränktes, nicht deterministisches Glossar sein. Das Glossar kann mehrere Übersetzungen mindestens eines der identifizierten Begriffe bilden, und es kann jeder Übersetzung entsprechend der Wahrscheinlichkeit, dass diese korrekt ist, eine Priorität zuweisen.
  • Die mehrsprachige Ressource kann über ein zweisprachiges Wörterbuch verfügen.
  • Die mehrsprachige Ressource kann über ein Maschinenübersetzungssystem verfügen.
  • Der Identifizierungsschritt kann durch einen Teil einer Sprachmarkierungseinrichtung ausgeführt werden.
  • Gemäß einer zweiten Erscheinungsform der Erfindung ist eine Vorrichtung zum Erzeugen eines mehrsprachigen Index, mit Indizierungsmerkmalen, für mehrere Dokumente, geschaffen, die Folgendes aufweist:
    • – eine Einrichtung zum Identifizieren jedes von mindestens einigen der in den Dokumenten vorhandenen Begriffe;
    • – eine mehrsprachigen Ressource zum Erzeugen äquivalenter Begriffe aus jedem identifizierten Begriff, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs;
    • – eine Einrichtung zum Erzeugen, für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt;
    • – eine Einrichtung zum Erzeugen, für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und
    • – eine Einrichtung zum Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
  • Die mehrsprachige Ressource kann über ein Glossar verfügen. Das Glossar kann ein eingeschränktes, nicht deterministisches Glossar sein. Das Glossar kann so ausgebildet sein, dass es mehrere Übersetzungen mindestens eines der identifizierten Begriffe bildet, und es kann jeder Übersetzung entsprechend der Wahrscheinlichkeit, dass diese korrekt ist, eine Priorität zuweisen.
  • Die mehrsprachige Ressource kann über ein Maschinenübersetzungssystem verfügen.
  • Die mehrsprachige Ressource kann über ein zweisprachiges Wörterbuch verfügen.
  • Die Identifizierungseinrichtung kann über einen Teil einer Sprachmarkierungseinrichtung verfügen.
  • Die Vorrichtung kann über einen programmierten Datenprozessor verfügen.
  • Gemäß einer dritten Erscheinungsform der Erfindung ist ein Speichermedium geschaffen, das dadurch gekennzeichnet ist, dass es ein Programm zum Steuern eines Datenprozessors zum Ausführen eines Verfahrens gemäß der ersten Erscheinungsform der Erfindung enthält.
  • So ist es möglich, einen mehrsprachigen Index für eine Sammlung von Dokumenten mit Indizierungsmerkmalen zu erzeugen, die nicht auf die in den Dokumenten auftretenden Begriffe beschränkt sind. Unter Verwendung mehrsprachiger Ressourcen kann die Indizierung auf effiziente und effektive Weise in anderen Sprache als der Quellen- oder Dokumentsprache ausgeführt werden.
  • Obwohl jeder beliebige Typ einer mehrsprachigen Ressource verwendet werden kann, zeigen leichte, linguistische quervernetzte Glossierungssysteme Vorteile. Ein derartiges Glossierungssystem nutzt eingeschränkten Nichtdeterminismus zum Erzeugen plausibler Übersetzungen in der Zielsprache, die in Indizierungsmerkmalen zu verwenden sind. Derartige Glossierungssysteme oder Glossare können vom in EP 0 813 160 und GB 2 314 183 offenbarten Typ sein. Dieser Glossartyp kann sequenzielle (kontinuierliche) und nicht-sequenzielle (nichtkontinuierliche) Kollokationen, die durch ein Kopfwort indiziert werden, er kennen und übersetzen. Ferner kann dieses System dazu verwendet werden, alternativen Übersetzungen Prioritäten auf solche Weise zuzuschreiben, dass konsistente Übersetzungen vollständiger Textabschnitte unabhängig davon immer erhalten werden, welche von mehreren Übersetzungen eines Worts oder einer Kollokation tatsächlich ausgewählt wird. Ferner ermöglicht es die Prioritätszuteilung für alternative Übersetzungen, eine eingeschränkte Anzahl derartiger Übersetzungen zu verwenden, z. B. auf Grundlage der Prioritätsinformation.
  • Derartige Glossare sind effizienter als Maschinenübersetzungssysteme. Ein Index erfordert lediglich die Identifizierung und Übersetzung von Begriffen, und er erfordert keine anderen Verarbeitungsschritte, wie eine Syntaxanalyse und die Erzeugung einer lesbaren Übersetzung, wie sie durch Maschinenübersetzungssysteme erstellt wird. So ist die Verwendung eines Glossierungsvorgangs rechnermäßig dadurch effizient, dass wesentlich weniger Rechenzeit erforderlich ist.
  • Durch die Verwendung eines Glossars können die Probleme in Zusammenhang mit der Auswahl durch ein Maschinenübersetzungssystem betreffend eine einzelne, wahrscheinlichste, jedoch möglicherweise fehlerhafte Übersetzung und die Auswahl aller möglicher Übersetzungen einschließlich derjenigen, die falsch sind und für Indizierungszwecke völlig ungeeignet sein können, überwinden. Unter Verwendung nicht-deterministischer Techniken kann eine eingeschränkte Anzahl der wahrscheinlichsten Übersetzungen der Begriffe geliefert werden. Es existiert eine sehr hohe Wahrscheinlichkeit dafür, dass diese eingeschränkte Anzahl von Übersetzungen, die aus allen möglichen Übersetzungen ausgewählt werden, die beste oder korrekte Übersetzung enthält. Demgemäß liefert das Zugreifen auf Dokumente unter Verwendung von auf diese Weise erzeugten Indizes für eine hohe Wahrscheinlichkeit dafür, dass alle relevanten Dokumente lokalisiert werden, während die Anzahl irrelevanter Dokumente, die andernfalls lokalisiert werden könnten, verringert werden kann.
  • Die Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beispielhaft weiter beschrieben.
  • 1 ist ein schematisches Blockdiagramm einer Vorrichtung zum Erzeugen eines Index, die eine Ausführungsform der Erfindung bildet; und
  • 2 und 3 sind Flussdiagramme zum Veranschaulichen eines Verfahrens zum Erzeugen eines Index, das eine Ausführungsform der Erfindung bildet und von der in der 1 dargestellten Vorrichtung ausgeführt wird.
  • Die 1 zeigt eine Vorrichtung zum Erzeugen eines Index für mehrere Dokumente in Maschinen-lesbarer Form, die in einem Dokumentenspeicher 1, wie einer Magnetplatte oder einem optischen Speichermedium wie einer CD-ROM gespeichert sind. Die Vorrichtung ist vom Typ eines programmierten Datenprozessors, wie eines Computers, und sie verfügt über einen programmierbaren Datenprozessor 2, der mit einer Eingangsschnittstelle 3, wie einer Tastatur und einer Maus, und einer Ausgangsschnittstelle 4, die mit einem Display und einem Drucker, versehen ist. Der Datenprozessor 2 verfügt über einen "Arbeitsspeicher" in Form eines Direktzugriffsspeichers (RAM) 5 zum Zwischenspeichern von Daten während Datenverarbeitungsvorgängen. Zum Speichern von Daten, die aufrechterhalten werden müssen, z. B. dann, wenn die Spannungsversorgung der Vorrichtung abgeschaltet wird, ist ein nichtflüchtiger Lese/Schreib-Speicher 6 vorhanden. Ein Programmspeicher 7 in Form eines Festwertspeichers (ROM) enthält ein Programm zum Steuern des Betriebs des Datenprozessors 2.
  • Die Vorrichtung kann auch mit anderen Speichervorrichtungen versehen sein. Beispielsweise können dazu geeignete Laufwerke für CD-ROMs 8, Disketten 9 sowie digitale Videoplatten (DVDs) 10 gehören. Diese Vorrichtungen können vom nur Lesetyp oder, z. B. bei Disketten 9, vom Lese/Schreib-Typ sein. Derartige Vorrichtungen können den Dokumentenspeicher 1 bilden, und sie können ein Ausgabemedium der Vorrichtung bilden. Beispielsweise kann der durch die Vorrichtung erzeugte Index auf jedes der in der 1 dargestellten Speichermedien 8, 9, 10 geschrieben werden.
  • Der Programmspeicher 7 enthält das oben genannte Programm, das vom Datenprozessor 2 ausgeführt wird, und/oder die mehrsprachige Ressource 11 und/oder den Thesaurus 12, um die hier beschriebenen verschiedenen Operationen auszuführen. Das Programm kann in einer beliebigen einer Anzahl bekannter Computersprachen geschrieben sein, wie es für den Fachmann auf dem Gebiet der Computerprogrammierung leicht ersichtlich ist. Demgemäß werden weitere Einzelheiten betreffend den speziellen Code selbst der Kürze halber weggelassen.
  • Eine mehrsprachige Ressource 11 und ein Maschinen-lesbarer Thesaurus 12 sind in der 1 als individuelle Vorrichtungen dargestellt. Jedoch können diese Vorrichtungen innerhalb der bereits beschriebenen Komponenten der Vorrichtung realisiert sein. Beispielsweise kann jeder der Speicher und Vorrichtungen 7 bis 10 die Daten enthalten, und der Speicher 7 kann Programme zum Ausführen der mehrsprachige Ressource und/oder des Thesaurus 12 enthalten.
  • Die mehrsprachige Ressource 11 zeigt vier Ressourcen, die während des Betriebs der Vorrichtung verwendet werden können. Ein Dokumentenglossar 13 ist eine "Vorrichtung", die eine "geordnete" Anzahl von Wörtern oder Kollokationen (Gruppen von Wörtern) in einer Quellensprache mit Übersetzungen in eine Zielsprache markiert. Das Glossar ist vorzugsweise vom Typ, der die Übersetzungen jedes Worts oder einer Kollokation in der Reihenfolge der Wahrscheinlichkeit dafür, dass es sich um die "korrekte" Übersetzung handelt, ordnet. Es ist vorzugsweise vom eingeschränkten, nicht deterministischen Typ, wie z. B. in EP 0 813 160 und GB 2 314 183 offenbart.
  • Obwohl das Dokumentenglossar 13 der bevorzugte Typ einer mehrsprachige Ressource für die Vorrichtung ist, sind in der 1 andere Ressourcentypen veranschaulicht. Demgemäß kann die mehrsprachige Ressource 11 über ein Maschinenübersetzungssystem 14 verfügen. Ein geeignetes Maschinenübersetzungssystem ist von W. John Hutchins und Harold L. Somers in "An Introduction to Maschine Translation", Academic press, 1992, ISBN 0-12-362830-X offenbart. Ein Maschinenübersetzungssystem führt eine tiefere Analyse in der Quellensprache als ein Glossar aus, und es führt auch normalerweise als "Erzeugung" bezeichnete Schritte aus, die versuchen, die Übersetzung von Wörtern oder Kollokationen in der Quellensprache in die Zielsprache in die korrekte grammatikalische Reihenfolge für die Zielsprache zu bringen und die korrekten Beugungen usw. zu erzeugen. Wie hier beschrieben, führen derartige Maschinenübersetzungssystem mehr Verarbeitung aus, und sie benötigen mehr Ressourcen als ein Glossar, jedoch können sie unter geeigneten Umständen als die mehrsprachige Ressource 11 verwendet werden.
  • Die mehrsprachige Ressource 11 kann über ein mehrsprachiges Wörterbuch 15 vom Maschinen-lesbaren Typ verfügen. Beispielsweise muss der Text in der Quellensprache nicht verarbeitet werden, sondern er kann einfach in Wörtern, und möglicherweise Kollokationen, unterteilt werden, und dann dazu verwendet werden, auf das Wörterbuch 15 zuzugreifen, um wortweise Übersetzungen des Texts zu erstellen.
  • Die mehrsprachige Ressource 11 kann über einen Teil einer Sprachmarkierungseinrichtung 16 verfügen. Eine derartige "Vorrichtung" führt eine begrenzte grammatikalische Analyse des Texts in der Quellensprache aus, um den Sprachteil jedes Worts zu bestimmen. Das Ergebnis dieser eingeschränkten Analyse kann dann auf das zweisprachige Wörterbuch 15 angewandt werden, um eine verbesserte Wortweise Übersetzung zu liefern, als sie unter Verwendung alleine des Wörterbuchs 15 erhalten werden kann.
  • Die 2 und 3 veranschaulichen ein Verfahren zum Erzeugen eines Index, das von der in der 1 dargestellten Vorrichtung ausgeführt werden kann. Der Dokumentenspeicher 1 enthält eine Sammlung S von Dokumenten in einer Quellen-Sprache, wie einer natürlichen Sprache. Nur zur Veranschaulichung wird der Betrieb für den Fall beschrieben, dass die Dokumente der Sammlung S in Englisch vorliegen und ein Index für Englisch und Holländisch benötigt wird.
  • In einem Schritt 20 wird ein Parameter "d" auf den Wert eins eingestellt, und ein Parameter N wird auf die Grundzahl der Dokumentensammlung S, d.h. die Anzahl der Dokumente in der Sammlung, eingestellt. Ein Schritt 21 testet, ob "d" kleiner als N oder gleich groß ist, und wenn dies der Fall ist, wird eine Routine 22 ausgeführt, die einen Indizierungsmerkmalsgenerator für linguistische Quervernetzung auf ein als "d" gekennzeichnetes Dokument anwendet, was in der 3 detaillierter dargestellt ist.
  • Das Dokument d in der Quellensprache ist mit 23 dargestellt, und es wird in einem Schritt 24 an eine "wahlweise" nicht deterministische Analyse und dann an einen Schritt 25 geliefert, der individuelle Dokumenten Wörter und Kollokationen aus dem Dokument d identifiziert und sie in einem Datensatz d speichert. Der Schritt 24 wird für jeden Satz des Dokuments d der Reihe nach ausgeführt, und er repräsentiert eine nicht deterministische Analyse der Quellensprache des Satzes. Der analysierte Satz wird an den Schritt 25 weitergeleitet, der einzelne Wörter oder Kollokationen identifiziert, die möglicherweise Übersetzungsäquivalente in der Zielsprache aufweisen. Die Schritte 24 und 25 werden vom Dokumentenglossar 13 ausgeführt.
  • In einem Schritt 26 wird ein Parameter "Element" auf den Wert eins gesetzt und ein Parameter X wird auf den Wert der Grundzahl des Datensatzes D gesetzt, d.h. die Anzahl der Wörter und Kollokationen in diesem. Ein Schritt 27 testet, ob "Element" den Wert X hat oder kleiner ist, und wenn dies der Fall ist, wird ein Schritt 28 ausgeführt. Im Schritt 28 wird das als DElement identifizierte Wort oder die Kollokation in einer zweisprachigen Ressource, wie dem Wörterbuch 15, nachgeschlagen. Jede der aus dem Wörterbuch erhaltenen möglichen Übersetzungen wird in einem Datensatz DElement gespeichert. Der Kontext des Worts oder der Kollokation wird berücksichtigt, um zu gewährleisten, dass die Übersetzungen in die Zielsprache Sinn machen. Beispielsweise wird dabei die Möglichkeit berücksichtigt, dass bestimmte Entscheidungen, die zur Übersetzung eines Teils eines Satzes getroffen werden, die Übersetzungen anderer Teile des Satzes beeinflussen können.
  • In einem Schritt 29 wird der Parameter Element um eins inkrementiert, und der Schritt 27 wird erneut ausgeführt. Diese Schleife dauert an, bis alle Wörter und Kollokationen im Datensatz D übersetzt wurden, woraufhin ein Schritt 30 ausgeführt wird.
  • Im Schritt 30 wird ein Parameter i auf den Wert 1 gesetzt, und in einem Schritt 31 wird getestet, ob i kleiner als X oder gleich groß ist. Wenn dies der Fall ist, werden in einem Schritt 32 die im Datensatz Ti gespeicherten Übersetzungen in der Zielsprache entsprechend Prioritätsinformation sortiert, wie sie während des Schritts 28 vom zweisprachigen Wörterbuch erhalten wird. So sorgt der Schritt 32 für eine Prioritätszuteilung oder Ordnung jedes Datensatzes von Übersetzungen entsprechend einem Wort oder einer Kollokation in der Quellensprache. Eine Technik zum Herleiten derartiger Prioritätsinformation ist in EP 0 813 160 und GB 2 314 183 offenbart.
  • In einem Schritt 33 wird i um eins inkrementiert, und der Schritt 31 wird erneut ausgeführt. Die Schleife dauert an, bis durch den Schritt 32 alle Übersetzungen in der Zielsprache sortiert sind, woraufhin in einem Schritt 34 aus der in den Datensätzen Ti gespeicherten Information für 1 ≤ i ≤ X Indizierungsmerkmale erzeugt werden. Insbesondere wählt der Schritt 34 die wahrscheinlichsten Übersetzungen unter Verwendung der im Schritt 32 erzeugten Ordnung aus. Die Quellenwörter und Kollokationen und die restlichen Übersetzungen in der Zielsprache werden dann dadurch als Indizierungsmerkmale angeordnet, dass eine Kennung des Dokuments d, in dem sie enthalten waren oder aus dem sie hergeleitet wurden, angefügt wird. Die sich ergebenden Indizierungsmerkmale sind unter 35 schematisch dargestellt.
  • Wie es in der 2 dargestellt ist, werden die Merkmale in der Zielsprache in einem Schritt 36 zu einem Index T in der Zielsprache hinzugefügt. Der Parameter d wird in einem Schritt 37 um eins inkrementiert, und der Schritt 21 wird erneut ausgeführt. Diese Prozedur wird wiederholt, bis alle Dokumente in der Quellensprache verarbeitet sind, zu welchem Zeitpunkt der Zielsprachenindex T, wie es bei 38 dargestellt ist, gemeinsam mit dem Quellensprachenindex an die Ausgabeschnittstelle 4 und/oder ein beliebiges der Speichermedien 8, 9, 10 zurückgeliefert wird.
  • Nun wird ein spezielles Beispiel zum Veranschaulichen dieses Verfahrens beschrieben. Bei diesem speziellen Beispiel liegen die Dokumente in der Quellensprache in Englisch vor, und es ist erforderlich, die Möglichkeit zu schaffen, dass in Englisch oder Holländisch auf sie zugegriffen werden kann. Daher werden die Dokumente jeweils einzeln durch die in der 2 dargestellten Schritte 20, 21 und 37 der in der 3 dargestellten Analyse zugeführt. Beispielsweise wird der Vorgang der in der 3 veranschaulichten Analyse unter Bezugnahme auf ein Dokument mit der Kennzahl #8 beschrieben. Das Dokument #8 verfügt über englische Sätze, die jeweils einzeln analysiert werden. Als Beispiel tritt der folgende englische Satz im Dokument auf:
    "air passes out of the furnace".
  • Der Analysierschritt 24 erkennt, dass "air" ein Hauptwort oder Verb sein könnte, "passes" ein Hauptwort in der Mehrzahl oder die dritte Person eines Verbs usw. sein könnte. Der Schritt 25 identifiziert alle Wörter und Kollokationen im Satz, um die folgende Analyse zu liefern.
    air NOMEN
    air_VERB
    pass_VERB
    pass_NOMEN
    pass_VERB out_PRÄP
    out_PRÄP
    out_PRÄP of_PRÄP
    of_PRÄP
    the_DET
    furnace_NOMEN
  • Im Schritt 28 werden die Wörter und Kollokationen im zweisprachigen Wörterbuch oder Lexikon nachgeschlagen, um holländische Übersetzungen wie folgt herzuleiten ("<nichts>" bedeutet, dass es möglich ist, das Wort oder die Kollokation mit keiner Übersetzung zu versehen):
    air_NOMEN → {lucht, hemel}
    air_VERB → {luchten, uiten}
    pass_VERB → {doorgeven, halen}
    pass_NOMEN {pas, kaart, voldoende}
    pass_VERB out_PRÄP {doorvoeren, flauwvallen}
    out_PRÄP {uit, buiten, extern van}
    out_PRÄP of_PRÄP {uit, buiten}
    of_PRÄP {<nichts>, van}
    the_BESTART {de, het}
    furnace_NOMEN {oven, fornuis}
  • Im Schritt 32 werden die Übersetzungen in der Zielsprache in der Reihenfolge der Wahrscheinlichkeit dafür geordnet, dass sie korrekt sind, und es wird ihnen der Eingabesatz wie folgt zugewiesen:
    air →[lucht, luchten, hemel, uiten]
    pass [doorvoeren, doorgeven, pas, kaart, voldoende, halen, flauw vallen]
    out → [uit, bruiten, extern van]
    of → [<nichts>, van]
    the → [de, het]
    furnace → [oven, fornuis]
  • Im Schritt 34 werden die Indizierungsmerkmale durch Anwenden des eingeschränkten Nicht-Determinismus, d.h. durch Auswählen der wahrscheinlichsten Übersetzungen, erzeugt, und dem Wörtern und Kollokationen in der Quellensprache sowie den Übersetzungen in der Zielsprache werden Kennungen (#8) des aktuell analysierten Dokuments wie folgt zugeordnet:
    ("air", #8)
    ("lucht", #8)
    ("luchten", #8)
    ("doorvoeren", #8)
    ("pass", #8)
    ("doorgeven", #8)
    ("pas", #8)
    ("kaart", #8)
    ("out of", #8)
    ("uit", #8)
    ("the", #8)
    ("de", #8)
    ("het", #8)
    ("furnace", #8)
    ("oven", #8)
  • Wenn einmal alle Dokumente auf diese Weise analysiert sind, wird der abschließende Index, z. B. in einem Speichermedium, erzeugt, der in der folgenden Form vorliegt:
    ["aardvark"] → #1,#17,#21,#47,#109
    [ "air"] → #5, #8, #87
    ["out of"] → #8,#10
    ["doorvoeren"] → #1,#8,#79
    ["zebra"] → #9,#10,#94,#187
  • Demgemäß können, wenn es erwünscht ist, Information aus der Dokumentensammlung herauszusuchen, Fragen entweder in Englisch oder in Holländisch durch ein Informationssuchsystem auf den Index angewandt werden. Diese Fragen können in Form von Wörtern oder Kollokationen in Zusammenhang mit dem zu suchenden Gegenstand vorliegen. Das Informationssuchsystem wendet diese auf den Index an, und wenn Übereinstimmungen mit den Indizierungsmerkmalen aufgefunden werden, werden die relevante Dokumentnummer oder -nummern zurückgeliefert, um das Dokument oder die Dokumente zu identifizieren, die wahrscheinlich den interessierenden Gegenstand enthalten.

Claims (18)

  1. Verfahren zum Erzeugen eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere Dokumente (1, 23), mit den folgenden Schritten: – Identifizierung (24, 25) jedes von mindestens einigen der in den Dokumenten (1, 23) vorhandenen Begriffe; – Zugriff (28) auf eine mehrsprachige Ressource (11) mit jedem identifizierten Begriff, um äquivalente Begriffe zu erzeugen, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs; – Erzeugen (34), für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt; – Erzeugen (34), für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und – Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dokumente (1, 23) Dokumente in einer natürlichen Sprache sind.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Glossar (13) gehört.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das Glossar (13) ein eingeschränktes, nicht deterministisches Glossar ist.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Glossar (13) mehrere Übersetzungen mindestens eines der identifizierten Begriffe bildet und jeder Übersetzung eine Priorität entsprechend der Wahrscheinlichkeit dafür zuweist, dass die Übersetzung korrekt ist.
  6. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein zweisprachiges Wörterbuch (15) gehört.
  7. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Maschinenübersetzungssystem (14) gehört.
  8. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass der Identifizierungsschritt (24, 25) durch einen Teil einer Sprachmarkierungseinrichtung (16) ausgeführt wird.
  9. Vorrichtung zum Erzeugen eines mehrsprachigen Index mit Indizierungsmerkmalen, für mehrere Dokumente (1, 23), gekennzeichnet durch: – eine Einrichtung (24, 25) zum Identifizieren jedes von mindestens einigen der in den Dokumenten (1, 23) vorhandenen Begriffe; – eine mehrsprachigen Ressource (11, 28) zum Erzeugen äquivalenter Begriffe aus jedem identifizierten Begriff, die Übersetzungen des Folgenden sind: des identifizierten Begriffs; eines allgemeineren Begriffs als des identifizierten Begriffs; und eines spezielleren Begriffs als des identifizierten Begriffs; – eine Einrichtung (34) zum Erzeugen, für jeden der identifizierten Begriffe, eines ersten Indizierungsmerkmals mit dem identifizierten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff auftritt; – eine Einrichtung (34) zum Erzeugen, für jeden der äquivalenten Begriffe, eines zweiten Indizierungsmerkmals mit dem äquivalenten Begriff und einer Kennung des oder jedes Dokuments, in dem der identifizierte Begriff, zu dem der äquivalente Begriff äquivalent ist, auftritt; und – eine Einrichtung zum Erzeugen eines Index mit dem ersten und dem zweiten Indizierungsmerkmal.
  10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, dass die Dokumente (1, 23) Dokumente in einer natürlichen Sprache sind.
  11. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Glossar (13) gehört.
  12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass das Glossar (13) ein eingeschränktes, nicht deterministisches Glossar ist.
  13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass das Glossar (13) so ausgebildet ist, dass es mehrere Übersetzungen mindestens eines der identifizierten Begriffe bildet und jeder Übersetzung eine Priorität entsprechend der Wahrscheinlichkeit dafür zuweist, dass die Übersetzung korrekt ist.
  14. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein Maschinenübersetzungssystem gehört.
  15. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur mehrsprachigen Ressource (11) ein zweisprachiges Wörterbuch (15) gehört.
  16. Vorrichtung nach einem der Ansprüche 9, 10 und 15, dadurch gekennzeichnet, dass der Identifizierungsschritt (24, 25) durch einen Teil einer Sprachmarkierungseinrichtung (16) ausgeführt wird.
  17. Vorrichtung nach einem der Ansprüche 9 bis 16, dadurch gekennzeichnet, dass sie einen programmierten Datenprozessor (2, 7) aufweist.
  18. Speichermedium (7), dadurch gekennzeichnet, dass es ein Programm zum Steuern eines Datenprozessors (12) zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 8 enthält.
DE69930690T 1998-06-02 1999-05-28 Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium Expired - Lifetime DE69930690T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9811744 1998-06-02
GB9811744A GB2338089A (en) 1998-06-02 1998-06-02 Indexing method

Publications (2)

Publication Number Publication Date
DE69930690D1 DE69930690D1 (de) 2006-05-18
DE69930690T2 true DE69930690T2 (de) 2006-11-16

Family

ID=10833024

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69930690T Expired - Lifetime DE69930690T2 (de) 1998-06-02 1999-05-28 Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium

Country Status (5)

Country Link
US (1) US6389387B1 (de)
EP (1) EP0964344B1 (de)
JP (1) JP3690938B2 (de)
DE (1) DE69930690T2 (de)
GB (1) GB2338089A (de)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US6823492B1 (en) * 2000-01-06 2004-11-23 Sun Microsystems, Inc. Method and apparatus for creating an index for a structured document based on a stylesheet
NL1015151C2 (nl) * 2000-05-10 2001-12-10 Collexis B V Inrichting en werkwijze voor het catalogiseren van tekstuele informatie.
JP2004501429A (ja) * 2000-05-11 2004-01-15 ユニバーシティ・オブ・サザン・カリフォルニア 機械翻訳技法
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
US20020123878A1 (en) * 2001-02-05 2002-09-05 International Business Machines Corporation Mechanism for internationalization of web content through XSLT transformations
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
EP1300773A1 (de) * 2001-10-02 2003-04-09 Sun Microsystems, Inc. Informationsdienst unter Verwendung von einem Thesaurus
FR2835334A1 (fr) * 2002-01-31 2003-08-01 France Telecom Systeme et procedes d'indexation et de recherche a extension de requetes, moteurs d'indexation et de recherche
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
NL1020670C2 (nl) * 2002-05-24 2003-11-25 Oce Tech Bv Het bepalen van een semantische afbeelding.
WO2004049110A2 (en) * 2002-11-22 2004-06-10 Transclick, Inc. Language translation system and method
US7854009B2 (en) 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8014997B2 (en) 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US20060282256A1 (en) * 2005-06-13 2006-12-14 Werner Anna F Translation method utilizing core ancient roots
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
KR20080024530A (ko) * 2005-07-15 2008-03-18 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 커뮤니티 특유 표현 검출 장치 및 방법
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US20100280818A1 (en) * 2006-03-03 2010-11-04 Childers Stephen R Key Talk
EP1835417A1 (de) * 2006-03-13 2007-09-19 Alcatel Lucent Webdienst mit entsprechendem lexikalischen Baum
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
US7523108B2 (en) * 2006-06-07 2009-04-21 Platformation, Inc. Methods and apparatus for searching with awareness of geography and languages
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US20080155399A1 (en) * 2006-12-20 2008-06-26 Yahoo! Inc. System and method for indexing a document that includes a misspelled word
US20080162109A1 (en) * 2006-12-28 2008-07-03 Motorola, Inc. Creating and managing a policy continuum
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8117194B2 (en) * 2007-05-07 2012-02-14 Microsoft Corporation Method and system for performing multilingual document searches
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
JP5007977B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 機械翻訳装置、機械翻訳方法、及びプログラム
US8135580B1 (en) * 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
US20100049496A1 (en) * 2008-08-22 2010-02-25 Inventec Corporation Word translation enquiry system across multiple thesauri and the method thereof
US20100106704A1 (en) * 2008-10-29 2010-04-29 Yahoo! Inc. Cross-lingual query classification
US20100125566A1 (en) * 2008-11-18 2010-05-20 Patentcafe.Com, Inc. System and method for conducting a patent search
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8756215B2 (en) * 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8527518B2 (en) * 2010-12-16 2013-09-03 Sap Ag Inverted indexes with multiple language support
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
RU2452002C1 (ru) * 2011-03-04 2012-05-27 Сергей Иванович Колесник Способ создания многоязыкового автоматического индекса электронной цифровой лоции
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US20120278302A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Multilingual search for transliterated content
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9509757B2 (en) 2011-06-30 2016-11-29 Google Inc. Parallel sorting key generation
US8682644B1 (en) 2011-06-30 2014-03-25 Google Inc. Multi-language sorting index
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US10169339B2 (en) 2011-10-31 2019-01-01 Elwha Llc Context-sensitive query enrichment
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
CN104281583B (zh) * 2013-07-02 2018-01-12 索意互动(北京)信息技术有限公司 信息检索方法及装置
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
US9558182B1 (en) * 2016-01-08 2017-01-31 International Business Machines Corporation Smart terminology marker system for a language translation system
US10275462B2 (en) * 2017-09-18 2019-04-30 Sap Se Automatic translation of string collections

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
JP3428068B2 (ja) * 1993-04-30 2003-07-22 オムロン株式会社 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JP3612769B2 (ja) * 1994-05-25 2005-01-19 富士ゼロックス株式会社 情報検索装置および情報検索方法
JP3617096B2 (ja) * 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
JP3254642B2 (ja) * 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
GB2314183A (en) * 1996-06-14 1997-12-17 Sharp Kk Accessing a database
US5956740A (en) * 1996-10-23 1999-09-21 Iti, Inc. Document searching system for multilingual documents
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis

Also Published As

Publication number Publication date
GB2338089A (en) 1999-12-08
GB9811744D0 (en) 1998-07-29
US6389387B1 (en) 2002-05-14
JPH11353314A (ja) 1999-12-24
DE69930690D1 (de) 2006-05-18
EP0964344A3 (de) 2002-07-17
JP3690938B2 (ja) 2005-08-31
EP0964344B1 (de) 2006-04-05
EP0964344A2 (de) 1999-12-15

Similar Documents

Publication Publication Date Title
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
US20240095867A1 (en) Patent mapping
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
EP1779271B1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
DE69820343T2 (de) Linguistisches Suchsystem
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE69725258T2 (de) System und Verfahren zur Wiederauffindung von Dokumenten in mehreren Sprachen
DE69925831T2 (de) Maschinenunterstützte übersetzungswerkzeuge
DE69923650T2 (de) System für mehrsprachige Informationswiederauffindung
DE102005032744A1 (de) Indexextraktion von Dokumenten
DE4410060A1 (de) Rechenvorrichtung
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
DE102005032734A1 (de) Indexextraktion von Dokumenten
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE102008005083A1 (de) Abrufen einer Information eines fallbasierten Schliessens aus Archivaufzeichnungen
Kluck et al. The domain-specific task of CLEF-specific evaluation strategies in cross-language information retrieval
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
Allen et al. Metadata and data structures for the historical newspaper digital library
DE102005032733A1 (de) Indexextraktion von Dokumenten
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
Kelly et al. Features of documents relevant to task-and fact-oriented questions
DE102021108675A1 (de) Schwach überwachte erkennung einer semantischen einheit unter verwendung von allgemeinwissen und zieldomänenkenntnis

Legal Events

Date Code Title Description
8364 No opposition during term of opposition