DE69910466T2

DE69910466T2 - Verfahren zum Verfeinern von Deskriptoren

Info

Publication number: DE69910466T2
Application number: DE69910466T
Authority: DE
Inventors: Aymeric Riverieulx De Varax; Michal Morciniec; Kave Eshghi; Jean-Jacques Moreau
Original assignee: Hewlett Packard Co
Current assignee: Hewlett Packard Development Co LP
Priority date: 1998-02-20
Filing date: 1999-02-19
Publication date: 2004-06-24
Anticipated expiration: 2019-02-20
Also published as: DE69910466D1; EP0938053B1; US6507841B2; EP0938053A1; US20020083031A1

Description

Technisches Gebiet
Diese Erfindung bezieht sich auf Verfahren zum Verfeinern von Deskriptoren, wie sie z. B. zum Wiedergewinnen von Datenelementen aus Datenbanken verwendet werden.
Hintergrund der Technik
Ein Haupthindernis für die effiziente Wiedergewinnung von Daten ist der Weg, auf dem sie indexiert werden (d. h. das Auswählen von Deskriptoren oder Schlüsselwörtern). Momentan bestehen bekannte Wege zum Indexieren:

1. Die Verwendung eines automatischen Indexierungstools, um Wörter aus Textdokumenten zu extrahieren oder Formen und Elemente in Bildern, Videos etc. zu erkennen. Dies basiert auf Künstlicher-Intelligenz-Techniken (AI-Techniken) und weist die Grenzen auf, die diese Technik bietet.
2. Eine oder mehrere Personen führen die Indexierung manuell nach einer gründlichen Analyse der Daten durch. Dies ist üblicherweise genau aber basiert auf dem Vokabular des Indexierers und ihrer Wahrnehmung der Daten. (Für Bilder kann dies z. B. sehr subjektiv sein.) Es ist ebenfalls sehr zeitaufwendig.

Beide diese Techniken liefern einen Satz von Indexierungsschlüsselwörtern oder Deskriptoren, die statisch sind, und die sehr häufig zu einem Vokabular gehören, das inkonsistent und beschränkt ist. Personen jedoch, die das System eigentlich abfragen, liefern mögliche Schlüsselwörter in ihren Abfragen. Die Schlüsselwörter in den Abfragen sind vielleicht keine existierenden Deskriptoren, aber sie sind für die Daten relevant. Momentan bleiben diese Informationen unbenutzt und werden von dem System vergessen, sobald der Benutzer das System verläßt. Folglich sind die Indexierungsschlüsselwörter unangemessen, und es kann nichts getan werden, um dieselben zu verbessern, sogar wenn manche Leute gute Indexierungsausdrücke als ihre Suche liefern.
Wenn sich die üblicherweise verwendete Terminologie im Lauf der Zeit ändert (z. B. wird ein technischer Ausdruck durch einen anderen ersetzt), dann wird es notwendig, die gesamte Indexierung erneut durchzuführen, was unerwünscht ist, besonders da die Datenbanken immer größer und größer werden.
Furnas George W. „Experience with an adaptive indexing scheme" CHI '85, Conference Proceedings: Human Factors in Computer Systems, S. 131–135, ACM New York 1985, offenbart ein Wiedergewinnungssystem, bei dem die Indexierungsschlüsselwörter an Deskriptoren nicht statisch sind.
Bei diesem System wird der Benutzer nachdem ein Suchergebnis zu ihm geliefert wurde gefragt, ob der Index modifiziert werden soll. Es besteht ein Bedarf, die Effizienz solcher Wiedergewinnungssysteme zu verbessern, durch Reduzieren der Benutzerintervention.
Offenbarung der Erfindung
Es wird ein Verfahren zum Verfeinern von Deskriptoren geschaffen, die Datenelementen zugeordnet sind, um eine Wiedergewinnung derselben zu ermöglichen, das folgende Schritte aufweist:
Speichern der Datenelemente in einer vollständigen Form, wobei ein oder mehrere Deskriptoren einem gespeicherten Datenelement zugeordnet sind;
Empfangen einer Suchanforderung von einem Benutzer für eine Auswahl von Datenelementen, wobei die Anforderung zumindest einen Deskriptor umfaßt;
Senden eines Suchergebnisses an den Benutzer, das nur eine Zusammenfassungsform von Datenelementen aufweist, die gemäß den Suchergebnissen ausgewählt werden; und
Verwenden einer Antwort des Benutzers, der die vollständige Form eines ausgewählten Datenelements in dem Suchergebnis anfordert, um ohne eine weitere Intervention des Benutzers die Zuordnung zwischen dem ausgewählten Datenelement und einem oder mehreren Deskriptoren zu modifizieren.
Kurze Beschreibung der Zeichnungen
Verfahren und Vorrichtungen gemäß dieser Erfindung zum Verfeinern von Deskriptoren, die Datenartikeln zugeordnet sind, werden nun beispielhaft Bezug nehmend auf die beiliegenden Zeichnungen beschrieben, in denen:
1 und 2 beim Beschreiben unterschiedlicher Indexierungssysteme verwendet werden;
3 ein schematisches Blockdiagramm eines Systems zum Implementieren der Erfindung ist;
4 eine adaptive Indexierung eines Bildes darstellt;
5 verschiedene Stufen zeigt, die beim Verwalten eines Einschließens eines Elements in einen oder des Weglassens eines Artikels aus einem Satz von Deskriptoren umfaßt sind;
6 eine Operation einer Technik zum Anpassen von Schlüsselwortgewichten zeigt; und
7 eine Exponentialfunktion zeigt, die beim Entscheiden von Gewichtungsfaktoren verwendet wird, die an Deskriptoren angewendet werden.
Bester Modus zum Ausführen der Erfindung und industrielle Anwendbarkeit
Schlüsselwörter oder Deskriptoren, die in einem Datenbanksystem verfügbar sind, um einen Sucher zu einem bestimmten Element zu führen (wie z. B. einem Dokument oder Bild), unterscheiden sich häufig von den Deskriptoren, die den Inhalt dieses Artikels am besten beschreiben. Dies macht eine Informationswiedergewinnung manchmal ungenau und unerfolgreich. Bei einem traditionellen Wiedergewinnungssystem, das einen statischen Index durch algorithmische Einrichtungen liefert, kann der Index durch ein Datenelement-Schlüsselwort dargestellt sein, eine schwach besetzte Matrix M mit fester Dimensionalität (siehe 1). Ein Eingang in die Matrix M(d, i) ist eine Zahl, die die Bedeutung hat „das Datenelement d wurde mit einem Schlüsselwort i indexiert". Binärinformationen oder Schlüsselwortfrequenzen können gespeichert werden und dies führt zu traditionellen binären oder probabilistischen Wiedergewinnungssystemen. Die größte Schwäche des Lösungsansatzes der statischen Indexierung ist eine Benutzersystem-Vokabularfehlübereinstimmung (Bedarf nach Thesauren, Stammbildung und grober Übereinstimmung) und ein Bedarf nach einem Abbilden einer Benutzerabfrage in die Indizes, die das System verwendet.
Es wäre wünschenswert, die Schlüsselwörter zu erfassen, die durch Benutzer während des Suchens geliefert werden, und dieselben zu den Elementen zuzuordnen, die Benutzer wiedergewonnen haben. Auf diese Weise kann sichergestellt werden, daß Elemente nützlich den Schlüsselwörtern zugeordnet werden, die Personen tatsächlich verwenden, um dieselben wiederzugewinnen.
Ein Beispiel der Erfindung wird hierin als adaptive Indexierung bezeichnet, wo die Elemente durch Bezugnahme auf implizite Beiträge von der gesamten Gemeinschaft indexiert werden, wenn Personen die Daten durchsuchen. Bei einer adaptiven Indexierung ist das System in der Lage, die Schlüsselwörter zu erfassen, die durch die Benutzergemeinschaft eingegeben wurden. Die erfaßten Informationen aus der Benutzerinteraktion während des Prozesses des Suchens und Browsens durch die Ergebnisse führt zu einem automatischen Thesaurusaufbau, einer allmählichen Konvergenz der Schlüsselwörter des Systems mit dem Vokabular der Benutzerpopulation und Indizes, die immer aktuell sind. Der dynamische Index könnte als eine Liste aus Schlüsselwörtern (2) visualisiert werden, wobei die enthaltene Liste alle Datenartikel aufzählt und die enthaltenen Listen alle Schlüsselwörter für ein gegebenes Datenelement aufzählen. Schlüsselwörter könnten ferner Einstufungen aufweisen, die an dieselben angebracht sind, gemäß ihrem Grad an Relevanz für das Datenelement. Die Liste wird erweitert, wenn ein neues Schlüsselwort eingegeben wird.
Bei diesem Szenario weist jedes Element oder Stück von Daten einen Satz von zugeordneten dynamischen Deskriptoren oder Schlüsselwörtern auf, die nicht statisch sind, die sich aber im Lauf der Zeit als ein Ergebnis aus Informationen von suchenden Personen ändern können. Jeder Deskriptor für ein gegebenes Datenstück weist ein Gewicht auf, das dessen Relevanz für dieses Datenstück mißt. Der Wert des Gewichts wird statisch durch die Suchen bestimmt. Zu einem Zeitpunkt wird der Deskriptor mit dem höchsten Gewicht zu dieser Zeit als die beste Beschreibung für das Datenstück betrachtet, da es die üblichste Beschreibung des Datenstücks war, die durch Personen unter Verwendung des Systems gegeben wurde. Der Deskriptor mit dem geringsten Gewicht ist für das Datenstück nicht sehr relevant, und wenn sich dessen Gewicht weiter verringert dann kann der Deskriptor an einem bestimmten Punkt entfernt werden (gesammelte wertlose Daten).
Eine Rückkopplung von Benutzern kann explizit (z. B. liefern Benutzer Anmerkungen darüber, wie nützlich oder relevant das Suchergebnis war) oder implizit (z. B. überwacht ein System, ob Personen Käufe bezüglich dem Inhalt des Suchergebnisses machen) sein. Bei der vorliegenden Anmeldung Bezug nehmend auf 3 und 4 ist die Rückkopplung implizit, d. h. der Benutzer weiß nichts über den Lernprozeß, der in dem System vorgeht. Folglich muß das System die Zuordnungen bewerten, die durch die Aktionen des Benutzers impliziert werden.
Bezug nehmend auf 3 betreibt ein Benutzer 10 einen Computeranschluß 12, um Suchanforderungen über eine Kommunikationsverbindung 14 (z. B. in einem Computerkommunikationsnetzwerk) zu einer Eingabe-/Ausgabe-Schnittstelle 16 zu senden. Die Schnittstelle 16 leitet die Suchanforderungen zu einem Prozessor 18 weiter, der Softwareprogrammbefehle ausführt, die in einem Speicher 20 gespeichert sind, um einen Datenspeicher 22 zu durchsuchen, der Datenelemente und zugeordnete Deskriptoren zum Indexieren derselben enthält. Die Programmbefehle können z. B. Suchmaschinenfunktionen zum Durchsuchen nach Datenartikeln umfassen, die spezifizierten Deskriptoren zugeordnet sind, und Funktionen zum Verwalten der Zuordnungen zu Deskriptoren.
Jedes Datenelement (Dokument, Bild etc.) wird in dem Datenspeicher 22 in zwei unterschiedlichen Formen gehalten:

– einer „Zusammenfassungsform", wo dasselbe minimal beschrieben ist, so daß der Benutzer schnell auf dessen Inhalte zugreifen kann. In dem Fall von Bildern kann die Zusammenfassung eine „kurze Skizze" (eine Version mit niedrigerer Auflösung und geringerem Maßstab als das Gesamtbild) möglicherweise mit einem Bildtitel oder anderen Informationen, wie z. B. dem Namen des Photographen oder Künstlers, oder eine Bildreferenznummer sein. Durch schnelles Untersuchen dieser Zusammenfassung kann der Benutzer eine anfängliche Meinung darüber bilden, ob dieses Element relevant für seine Abfrage sein kann.
– Eine „vollständige Form", die alle notwendigen Informationen über das Element enthält, um zu ermöglichen, daß eine Entscheidung darüber gemacht wird, ob sie relevant für die aktuelle Abfrage ist oder nicht. Für ein Bild würde diese vollständige Form z. B. das Bild mit einer ausreichend guten Auflösung aufweisen, um zu ermöglichen, daß Details der Zusammensetzung sowie die Qualität des Bildes eingeschätzt wird. Bei einem entfernten technischen Unterstützungssystem könnte es die gesamte Historie eines Rufs nach Unterstützung durch einen Benutzer sein, und die gegebene Hilfe und Anweisung (Frage/Antwort/Anmerkungen/Zeiger auf relevante Dokumente etc....).

Der Benutzer 10 liefert zuerst eine Abfrage, und der Prozessor 18 antwortet mit einer Liste von Zusammenfassungen von Elementen, die als potentiell relevant erscheinen. Der Benutzer browst durch diese Ergebnisliste und nach dem Finden eines Elements, das aus dessen Zusammenfassung als ähnlich zu dem erscheint, nach dem gesucht wird, greift er auf die vollständige Form dieses Artikels zu. Der Prozessor 18 behandelt diese Auswahl unter der Steuerung des Programms in dem Speicher 20 als ein implizites Signal, daß eine Zuordnung zwischen der anfänglichen Abfrage (Liste von Deskriptoren) und dem Element in der Datenbank gemacht wurde.
Folglich aktualisiert er die Deskriptoren des ausgewählten Elements dementsprechend in dem Datenspeicher 22. Alle Schlüsselwörter bei der Abfrage werden bei dieser Aktualisierung zu dem ausgewählten Element zugeordnet, unabhängig davon, ob dieselben bereits Deskriptoren für dieses Element waren oder nicht – auf diese Weise wendet das System neue Schlüsselwörter an.
Somit kann Bezug nehmend auf 4 ein Bild eines Schweines mit einem Wurf Ferkel, die neben einem Büschel Blumen stehen bereits gemäß den Ausdrücken Schwein, Bauernhof, Familie, Blumen und Feld indexiert sein. Ein Benutzer kann eine Suchabfrage eingeben, die die Ausdrücke, Schwein, Ferkel, Bauernhof, Land und Familie enthält. Da Land und Ferkel noch nicht als Deskriptoren für dieses Bild vorhanden sind, fügt das System dieselben hinzu. Es paßt ferner die Gewichtung der Deskriptoren in der Abfrage an (und erhöht dieselben), die diesem Element bereits zugeordnet sind (wie z. B. Schwein und Bauernhof). Wenn Blumen mit einer Nullgewichtung weiter besteht wird es schließlich als ein Deskriptor für dieses Bild entfernt.
Die Entwicklung der Gewichte der Deskriptoren für ein gegebenes Datenelement wird durch die Interaktionen der Benutzer maßgeschneidert. Je mehr Benutzer einen Deskriptor zu einem bestimmten Datenelement zuordnen, desto höher das resultierende Gewicht. Wenn sich die Beschreibung des Datenelements durch einen Benutzer ändert (z. B. durch die Entwicklung von Terminologie, historischen Ereignissen, neuer Terminologie, eines neuen Datenbereichs oder einem neuen Satz von Benutzern), entwickeln sich die Deskriptoren gemäß der Mehrheitsmeinung der Gemeinschaft von Benutzern, die die Daten suchen.
Da diese Technik auf rein impliziten Anzeigen basiert, kann die Möglichkeit von bestimmen unangemessenen Zuordnungen nicht verhindert werden. Zum Beispiel kann der Benutzer 10 nach einem Bild eines Löwen suchen, der seine Beute frißt.
Sie kann die Abfrage „Löwe frißt Beute" eingeben, und der Prozessor 18 gibt ein Bild einer Antilope zurück, die im Schatten eines Baumes ruht. Obwohl der Benutzer nicht interessiert ist, Rechte zu kaufen, um dieses Bild zu verwenden, findet er/sie es ansprechend und fordert die vollständige Form an, um das Bild aus reiner Neugier detaillierter zu sehen. Der Schlüsselworterfassungsprozeß, der durch den Prozessor 18 implementiert wird, reflektiert diese Aktion durch Verstärken oder erneutes Indexieren dieses Bild einer Antilope mit den Schlüsselwörtern „Löwe", „Fressen" und „Beute", wobei „Löwe" in dem Prozeß vielleicht ein neuer Deskriptor wird. Es ist ferner möglich, eine unangemessene Zuordnung zu machen, durch Zuordnen eines falsch geschriebenen Schlüsselworts zu einem Element.
Solche unangemessenen Zuordnungen sollten jedoch eine minimale Auswirkung auf das System haben, da eine individuelle Zuordnung die Schlüsselwortgewichtung nicht sehr viel ändert. Ein neu zugeordnetes Schlüsselwort nimmt keine maximale Bedeutung an, direkt nachdem die erste Zuordnung gemacht wird. Anders ausgedrückt ist mehr als eine einzelne Zuordnung nötig, um die Indexierung radikal zu ändern; bei einer Implementierung werden z. B. keine neuen Schlüsselwörter für die Suche verwendet, bis fünf Zuordnungen zu diesem Schlüsselwort gemacht wurden. Folglich wird ein falsch geschriebenes Schlüsselwort nur ein gültiger Deskriptor für das Datenelement, wenn es eine übliche Falschschreibung ist.
So weit wurde ein adaptives Indexieren im wesentlichen als ein Prozeß beschrieben, der stattfindet, wenn ein Zugriff auf die vollständige Form eines Datenelements für eine Vorschau/Überprüfung ausgeführt wird. Es ist jedoch ferner möglich, mehrere Auswirkungspegel auf die Indexierung einzuführen. Zum Beispiel ist es möglich, die Deskriptoren weiter zu stärken, wenn der Benutzer 10 entscheidet, die Rechte zur Verwendung eines Bildes tatsächlich zu kaufen.
Jede Zuordnung zwischen einem Deskriptor oder Schlüsselwort und einem Datenelement hat ein Gewicht, das ein Wert zwischen 0 und 1 ist. Dieses Gewicht kann auf eine von zwei Arten implementiert werden:

– fokussiertes Datenelement: Gewichte werden Datenelementen zugeordnet und eine Normierung wird relativ zu Datenelementen ausgeführt; dies impliziert ein Definieren, wie ein Datenelement beschrieben wird;
– Schlüsselwort fokussiert: Gewichte werden Schlüsselwörtern zugeordnet und eine Normierung wird relativ zu einem Schlüsselwort durchgeführt; dies impliziert ein Definieren, was ein Schlüsselwort bedeutet.

Bei dem vorliegenden Ausführungsbeispiel wird eine Schlüsselwort-fokussierte Gewichtung verwendet. Der Grund dafür ist hauptsächlich, sicherzustellen, daß Spezialisten-Schlüsselwörter, die sehr selten verwendet werden (aber die extrem gute Deskriptoren sind), das Ergebnis einer Abfrage trotzdem stark beeinflussen. Wenn der Datenelementfokussierte Lösungsansatz verwendet worden wäre, wäre das Gewicht von solch selten verwendeten Schlüsselwörtern klein im Vergleich zu dem Gewicht von anderen, üblicheren Schlüsselwörtern. Somit würde eine Abfrage, die ein übliches Schlüsselwort und ein unübliches Schlüsselwort kombiniert, ein Ergebnis mit vielen Elementen ergeben, die mit dem üblichen Schlüsselwort übereinstimmen, wodurch möglicherweise die Elemente überhäuft werden, die mit dem unüblichen aber äußerst relevanten Deskriptor übereinstimmen. Bei dem Schlüsselwort-fokussierten Lösungsansatz ist das Gewicht dieses unüblichen Deskriptors hoch, da die Zahl von Datenartikeln, die durch dieses spezifische Schlüsselwort beschrieben werden, gering ist.
Diese Wahl hat die Nebenwirkung, daß sie beliebten Datenelementen eine erhöhte Wichtigkeit zuordnet (was die Gewichte betrifft). Von einem Handelsstandpunkt aus ist dies vorteilhaft: in dem Fall von Bildern z. B. gibt es häufig Bilder, die zu einer Zeit besonders beliebt sind, gemäß einer aktuellen Mode.
Das Schlüsselwortgewicht wird verwendet, um die Wichtigkeit eines Schlüsselworts für ein bestimmtes Datenelement zu bewerten und ferner die Ergebnisse einer Benutzerabfrage rangmäßig zu bewerten. Bei dem hierin beschriebenen Ausführungsbeispiel werden für jedes Schlüsselwort drei unterschiedliche Gewichtwerte unterschieden, die den Status dieses Schlüsselworts bestimmen:

– w_k ⁰: das anfängliche Gewicht, wenn das Schlüsselwort zuerst in das System eingegeben wird;
– w_k ^User: die Schwelle für ein Schlüsselwort, um suchbar zu werden (d. h. beim Bestimmen in Betracht gezogen zu werden, ob ein Datenelement in dem Ergebnis einer Benutzerabfrage umfaßt sein sollte);
– w_k ^GC: die Schwelle unter der ein Schlüsselwort „als wertlose Daten gesammelt" wird (d. h. nicht mehr beim Anordnen von Ergebnissen für Benutzerabfragen verwendet wird).

Die spezifische Berechnung von jedem dieser Werte hängt von der adaptiven Indexierung des angenommenen Algorithmus ab.
Ferner weist jedes Schlüsselwort einen Status auf, der durch diese Gewichtwerte bestimmt wird, der den Einfluß des Benutzers reflektiert, wie er durch ihre Reaktionen auf Abfrageergebnisse impliziert wird:

1. Hauptschlüsselwort: das Hauptschlüsselwort wird durch den Inhaltsanbieter oder durch einen professionellen Indexierer (dies ist der Original-Deskriptor) bereitgestellt. Dieses Schlüsselwort kann nicht durch das System entfernt werden ohne die ausdrückliche Zustim mung eines Überwachers. Der Grund dafür ist, daß einige Ausdrücke für das Datenelement sehr spezifische sind oder sogar Schlüsseldeskriptoren sind, aber daß dieselben nicht häufig verwendet werden, da der durchschnittliche Benutzer (allgemeine Öffentlichkeit) nicht vertraut mit denselben ist. Trotzdem ermöglicht ihre Aufnahme Spezialisten, schnell auf die Datenelemente zuzugreifen.
2. Benutzerschlüsselwort: dieses Schlüsselwort wurde durch einen Benutzer bereitgestellt (allgemeine Öffentlichkeit); es ist suchbar, da eine beträchtliche Anzahl von Personen dieses Schlüsselwort bereits einem bestimmten Datenelement zugeordnet hat.
3. Kandidatenschlüsselwörter: es bestehen zwei unterschiedliche Typen von Kandidatenschlüsselwort, die zwei unterschiedliche Typen von Übergang für ein Schlüsselwort reflektieren. In jedem Fall sind sie nicht „aktiv" (nicht suchbar). Sie werden als wertlose Daten gesammelt, wenn ihr Gewicht unter einen bestimmten Wert (w_k ^GC) fällt, oder sie werden zu Benutzerschlüsselwörtern, wenn ihr Gewicht über einen gegebenen Wert (w_k ^User) steigt.
– Kandidat für ein Benutzerschlüsselwort: dies ist der anfängliche Status für ein neues Schlüsselwort, das in das System eingegeben wird. Dieses Schlüsselwort ist noch nicht suchbar, da es falsch geschrieben oder eine unangemessene Zuordnung sein könnte, wie oben beschrieben wurde. Dieser Status reduziert das Risiko, daß der Suchprozeß durch das Vorhandensein einer großen Anzahl von „wertlosen" Schlüsselwörtern verlangsamt wird. Dies macht jedoch auch die Hinzufügung eines neuen Schlüsselworts schwerer, da es in Zuordnung mit einem existierenden Schlüsselwort für ein Datenelement mehrere Male verwendet werden muß, bevor es die Schwelle überschreitet, um selbst ein Benutzerschlüsselwort zu werden;
– Kandidat für Wertlose-Daten-Sammlung: dieser Status ist für Benutzerschlüsselwörter reserviert, deren Gewicht sich auf das ursprüngliche Einführungsgewicht (w_k ⁰) verringert, d. h., sie wurden zu Benutzerschlüsselwörtern aber sie wurden danach selten verwendet. Dies könnte z. B. entweder aufgrund der Entwicklung des Vokabulars oder durch eine Eingabe eines unangemessenen Schlüsselworts zu einem Zeitpunkt passieren.

5 zeigt die möglichen Übergänge zwischen diesen unterschiedlichen möglichen Status und die entsprechenden Werte für das Gewicht w_k ⁰, die bei jedem Übergang resultieren.
Verschiedene unterschiedliche Techniken zum Variieren des Werts des Gewichts w_k ⁰ können verwendet werden. Zwei werden nachfolgend beschrieben. Die erste ist eine direkte Interpretation von einfachen probabilistischen Regeln. Die zweite ist empirischer und zielt darauf ab, die Gewichte zu zwingen sich nach einer Exponentialkurve zu entwickeln.
Bei der ersten Technik ist das Gewicht für eine gegebene Zeitperiode fest. An dem Ende jeder Periode wird das Gewicht gemäß dem Ausmaß der Zuordnung neu bewertet, die während dieser Periode aufgetreten ist. Die Dauer einer Periode ist der einzige zufällige Parameter. Er hängt von der Gesamtanzahl von Datenelementen und von dem Ausmaß der Verwendung des Suchsystems ab (Anzahl von Abfragen pro Tag, z. B.). Am Anfang jeder Periode werden für jedes Schlüsselwort k zwei Zähler auf 0 gesetzt:

– C_k stellt die Anzahl von Malen dar, die das Schlüsselwort zu Datenelementen zugeordnet wurde (unabhängig davon, ob es zu unterschiedlichen Datenelementen oder viele Male zu demselben Datenelement war);
– C_k,i stellt die Anzahl von Malen dar, die ein Schlüsselwort einem Datenelement i zugeordnet wurde. An dem Ende der Periode wird das Gewicht der Zuordnung zwischen einem Schlüsselwort und einem Datenelement definiert durch wk,i = (Ck,i/Ck) wenn Ck ungleich 0 ist wk,i = 0 ansonsten

Anders ausgedrückt stellt das Gewicht die Wahrscheinlichkeit dar, daß das Datenelement i durch das Schlüsselwort k indexiert wird. Unter diesen Umständen ist das Startgewicht w_k ⁰ für ein neues Schlüsselwort proportional zu 1/C_k. Die zwei anderen Schwellen w_k ^User und w_k ^GC sind willkürlich und sind für alle Schlüsselwörter gleich. Ein Nachteil dieses Verfahrens ist, daß die Geschichte, die einem Gewicht zugeordnet ist, relativ beschränkt und sehr abhängig von der Aktivität des Suchsystems ist, und genauer gesagt von dem Ausmaß der Verwendung des Schlüsselworts.
Die Listen von Schlüsselwörtern könnten gemäß normierten Einstufungen sortiert und in quantisierte Intervalle einer festen Länge in Proportion zu der Wahrscheinlichkeit der Indexierung eines Datenelements jedes Schlüsselworts sortiert werden. Schlüsselworte würden auf der Basis von Gewicht konkurrieren, um auf das höhere Intervall befördert zu werden, und würden nach unten zu dem niedrigeren Intervall durch angemessenere Schlüsselwörter bewegt werden. Zustände können für das Überkreuzen von Intervallgrenzen spezifiziert werden, um zu verhindern, daß Schlüsselwörter zwischen Intervallen hin- und herschwanken (siehe 6). Schlüsselwortwahrscheinlichkeiten können quantisiert werden, um Speicherung zu sparen (ein Byte ergibt 256 Bereiche einer Länge von 0,004, die ausreichend sein könnte).
Bei der zweiten Exponentialfunktionstechnik folgt das Gewicht einer Kurve, die aus zwei Exponentialkurven zusammen gesetzt ist (siehe 7). Somit wird das Erhöhen und Verringern der Gewichte auf eine einfache Multiplizierung mit einem spezifischen Koeffizienten reduziert. Jede Zuordnung eines Datenartikels zu demselben Schlüsselwort folgt derselben Kurve abhängig von dem anfänglichen Gewicht.

Der Einfachheit und der Effizienz der Berechnung halber ist es bevorzugt, den Wert v = w – 1 anstatt von w selbst zu speichern. Nachfolgend wird v als der „Beziehungskoeffizient" bezeichnet. Zusätzlich dazu werden die nachfolgenden Bezeichnungen verwendet:

v_ik	Beziehungskoeffizient der Zuordnung [i, k]
v_k ⁰	anfänglicher Beziehungskoeffizient für Zuordnungen zu dem Schlüsselwort k
v_k ^User	Benutzerbeziehungskoeffizient für Zuordnungen zu dem Schlüsselwort k
v_k ^GC	GC-Beziehungskoeffizient für Zuordnungen zu dem Schlüsselwort k
n_k	Anzahl von Datenelementen, die durch das Schlüsselwort k bei aktiven Zuordnungen indexiert wurden

Die nachfolgenden Anforderungen können ohne weiteres sichergestellt werden:

– Gewichteinschränkung, um ein Relevanzgewicht darzustellen (d. h. w_ik ϵ]0,1[oder v_ik ϵ]–1,0[)
– die Anzahl N_User von Interaktionen, die für ein Schlüsselwort bei einer Zuordnung benötigt wird, um ein aktives Schlüsselwort zu werden, kann gesteuert werden (d. h. die Gesamtanzahl von Zuordnungen dieses Schlüsselworts zu diesem Datenelement müßte v_ik > v_k ^User sein)
– die Anzahl N_GC von negativen Interaktionen, die für ein Schlüsselwort bei einer Zuordnung benötigt werden, um ein Kandidat für eine Wertlose-Daten-Sammlung zu werden, kann gesteuert werden (d. h. die Anzahl von Zuordnungen, die benötigt werden, für v_ik < v_k ⁰)
– Umkehrbarkeit einer Aktualisierung (d. h. v_ik einmal erhöht und n_k mal verringert kehrt zu dem anfänglichen Wert vor der Erhöhung zurück)

Das Gewichtaktualisierungsverfahren erfordert eine anfängliche Einstellung für den Beziehungskoeffizienten. Für jede Zuordnung zwischen einem Schlüsselwort und einem Datenelement wird dieser Beziehungskoeffizient erhöht oder verringert. In dem Fall einer neuen Zuordnung wird derselbe in den Datenspeicher 22 eingegeben, und wenn diese neue Zuordnung mit einem neuen Schlüsselwort gemacht wird, wird dieses Schlüsselwort ebenfalls in den Datenspeicher 22 eingegeben.
Die Beziehungskoeffizienten für ein Schlüsselwort werden zuerst initialisiert abhängig von der Anzahl von Datenelementen, die durch das Schlüsselwort indexiert werden. Es wird darauf hingewiesen, daß je mehr Datenelemente ein Schlüsselwort indexiert, desto weniger relevant sollte es anfänglich sein, um die Datenelemente zu beschreiben.
Somit kann w_k ⁰ folgende Form annehmen:
Aus praktischen Gründen ist es unerwünscht, wenn der anfängliche Beziehungskoeffizient zu hoch ist, somit wird 2 bei der Formel zu n_k addiert. Dies ist beliebig und unterschiedliche Werte könnten hier verwendet werden.
Für jeden Teil der Kurve (Teil 1 und Teil 2, 7) liegt ein jeweiliger Erhöhungskoeffizient und ein Verringerungskoeffizient vor. Diese Koeffizienten sowie der anfängliche Beziehungskoeffizient, sind für jedes Schlüsselwort spezifisch.
Teil 2 der Kurve: wenn v ≥ v⁰
Wenn f die Funktion ist, die diesen Teil beschreibt, mit den zwei anfänglichen Zuständen f(0) = v_k ⁰ und der Steigung f(0) = s, wird der folgende Ausdruck für f erhalten:
Erhöhungskoeffizientgleichung (berechnet aus f(x + 1)):
Verringerungskoeffizientgleichung (berechnet aus f(x – 1/n_k))
Teil 1 der Kurve: wenn v < v⁰
Wenn g die Funktion ist, die diesen Teil beschreibt, mit den zwei anfänglichen Zuständen g(0) = v_k ⁰ und der Steigung g'(0) = s, wird der nachfolgende Ausdruck für g erhalten:
Erhöhungskoeffizientgleichung (berechnet aus g(x + 1)):
Verringerungskoeffizientengleichung (berechnet aus g(x – 1/n_k))
In 7 stellt die x-Achse die Anzahl N von Zuordnungen zwischen einem Schlüsselwort und einem Datenelement dar. Die exakte Ableitung von N ist: N = N+ – N–·1/nk wobei N⁺ die Anzahl von Malen darstellt, die die Zuordnung in [i, k] durchgeführt wurde, und N^– die Anzahl von Malen darstellt, die die Zuordnungen [j, k] für j ≠ i durchgeführt wurden.
Der User- und GC-Beziehungskoeffizient werden wie folgt hergeleitet:
Benutzerbeziehungskoeffizient V_k ^User
Dies stellt den Wert von v dar, der genommen wird, nachdem Nuser-Zuordnungen aufgetreten sind, ohne eine Verringerung, da die Zuordnung erzeugt wurde (d. h. weil v = v⁰).
GC-Beziehungskoeffizient v_k ^GC
Dies stellt den Wert von v dar, der den Wert des anfänglichen Beziehungskoeffizienten v⁰ annehmen würde, nachdem N_GC negative Interaktionen aufgetreten sind, ohne eine Verringerung.
Der Koeffizient nk zählt Zuordnungen zu dem Schlüsselwort k, die aktiv sind, was bedeutet, daß die anderen Koeffizienten v_k ⁰, C(1) inc, C(2) inc, C(1) dec, und C(2) dec, sich nur auf die aktiven Schlüsselwörter beziehen. Wenn sich der Status eines Schlüsselworts k in einer Zuordnung ändert, muß der Wert von nk erhöht werden (Kandidatenschlüsselwort oder Benutzerschlüsselwort) oder verringert werden (Benutzerschlüsselwort zu Kandidat für GC-Schlüsselwort). Dann müssen alle anderen Koeffizienten neu berechnet werden.
Wenn eine neue Zuordnung zu einem neuen Schlüsselwort k gemacht wird, sollte das System den Wert von nk auf 1 initialisieren und dann v_k ⁰, C(1) inc, C(2) inc, C(1) dec, und C(2) dec berechnen. Dann wird die Zuordnung zwischen dem Datenelement und dem Schlüsselwort erzeugt, und v_ik erhält den Beziehungskoeffizientenwert v_k ⁰.
Wenn eine neue Zuordnung gemacht wird, aber mit einem Schlüsselwort k, das bereits in dem System vorliegt (d. h. Indexieren anderer Datenartikel), wird diese neue Zuordnung erzeugt und ihr Beziehungskoeffizient wird auf v_k ⁰ initialisiert. Da dies noch kein aktives Schlüsselwort für dieses Datenelement ist, wird es nicht in nk gezählt, so daß die anderen Koeffizienten noch nicht neu berechnet werden.
Einige Beispielszenarios, die die vorliegende Erfindung umfaßt, werden nun kurz beschrieben:

1) Indexieren neuer Datenartikel: ein Stapel von Photographien muß zu dem Bilddepot hinzugefügt werden und es besteht eine Gemeinschaft von Bildindexierern (dies könnten die Benutzer sein, die durch die Sammlung browsen). Jedem Indexierer wird ein beliebig ausgewähltes Bild aus dem neuen Stapel gegeben und er wird aufgefordert, die Schlüsselwörter zu liefern. Diese werden zu dem Schlüsselwortsatz hinzugefügt, der das Bild indexiert, oder wenn das Schlüsselwort bereits vorhanden ist, wird der Zähler, der demselben zugeordnet ist, inkrementiert. Vorausgesetzt, daß Benutzer einem Teilsatz von Schlüsselwörtern für ein gegebenes Bild zustimmen, würden diese schließlich mit der höheren Einstufung auftreten.
2) Suchen einer indexierten Sammlung von Datenelementen: die Sammlung von Photographien wird mit Schlüsselwörtern durch eine große Benutzergemeinde durchsucht. Die Kandidatenphotographien, die gemäß den Schlüsselwörtern ausgewählt werden, sind in Skizzenform gezeigt, und sobald ein Skizzenbild zum Betrachten der vollständigen Version in voller Größe und Auflösung ausgewählt wird, modifizieren die Suchschlüsselwörter bestehende Indizes um einen geringen Faktor (Lernrate). Wenn der Benutzer nachfolgend auswählt, eine Kopie des Bildes zu kaufen, kann die Zuordnung der Suchschlüsselwörter zu dem Bild entsprechend weiter gefestigt werden. Man könnte versuchen, den Thesaurus automatisch unter der Annahme zu erhalten, daß zwei nachfolgend eingegebene Schlüsselwörter semantisch aufeinander bezogen sind (angenommen die Schlüsselwörter sind nur Nomen). Dies ist eine sehr schwache Annahme, und die meisten der Paare würde ein „Rauschen" bilden (d. h. sie weisen eine sehr geringe Wahrscheinlichkeit auf, durch einen anderen Benutzer eingegeben zu werden), aber konsistent eingegebene Schlüsselwortpaare würden durch das Einstufungsverfahren entstehen.

Es existieren viele Anwendungen für eine adaptive Indexierung. Das Word Wide Web liefert eine besonders attraktive Möglichkeit, da seine Benutzergemeinde riesig und vielfältig ist. Menschen verwenden das Web, um nach Informationen eines beliebigen Typs zu suchen, und sind empfindlich gegenüber Verzögerungen bei der Suche, so daß die Qualität der Indexierung sehr wichtig ist. Das Web ändert sich ferner sehr schnell, wenn sich die Technik entwickelt: es besteht ein Bedarf nach einem Maximum an Dynamität sowie einer Verfügbarkeit von Informationen.
Eine adaptive Indexierung könnte ferner sehr nützlich für kleinere Benutzergemeinden sein. Eine körperschaftliche Benutzergemeinschaft kann das Suchtool z. B. trainieren, um sein eigenes spezialisiertes Vokabular zu verwenden. Da das Indexieren adaptiv ist, können die Indizes spezifisch oder für einen bestimmten Bereich zweckgebunden sein.
Dieses System wäre äußerst nützlich für Bildbibliotheken, da automatische Tools zum Indexieren von Bildern sehr schwierig herzustellen sind. Der Weg, wie ein Bild beschrieben wird, hängt ferner davon ab, was bei einem Bild berücksichtigt wird: es können die Elemente sein, die in dessen Zusammensetzung eingehen, oder das Gefühl, das es verursacht. Ein adaptives Indexierungstool baut einen Satz von Deskriptoren auf, die reflektieren, was die Mehrzahl von Menschen, die die Bildbibliothek durchsuchen, über ein Bild denken, wodurch es durch die Mehrheit einfach wiederzugewinnen wird.
Einerseits kann diese Technik daher verwendet werden, um das Web zu indizieren und ein Datenelement leicht durch einen Großteil von Menschen erreichbar zu machen, die nach demselben suchen, und andererseits ermöglicht es die Verwendung eines sehr eingeschränkten Vokabulars zum Indexieren bei einer kleineren Benutzergemeinschaft mit starren Regeln. Das System paßt sich selbst an die Umgebung an und kann reibungslos von einer Umgebung zu einer anderen bewegt werden.
In der Tat versucht dieses System, eine wahre Wahrnehmung von Objekten in der Umgebung zu erfassen. Wir alle haben unterschiedliche Wege, etwas zu beschreiben, aber die Beschreibung, die in der entsprechenden Gemeinschaft am häufigsten verwendet wird, kann als die demokratische Beschreibung betrachtet werden. Somit kann ein adaptives Indexierungssystem als ein Depot für menschliches Wissen wirken und das Machen von „Schnappschüssen" von dem Zustand des Systems von Zeit zu Zeit könnte langfristig einen Vergleich von Kulturen ermöglichen.
Obwohl das System seine Indizes automatisch ohne eine Intervention anpassen kann, besteht ferner die Möglichkeit, daß ein Verwalter des Systems einige Parameter gemäß den benötigten Suchkapazitäten einstellen kann:

– Modifizierung der Anzahl von Deskriptoren für die Daten. Durch Modifizieren der Schwelle des Minimalgewichts oder der Gesamtanzahl von zulässigen Deskriptoren kann entschieden werden, wie umfassend das Vokabular sein wird.
– Modifizierung der Amplitude des Gewichts: der Verwalter kann wählen, ob es angemessen ist, Gewichte zu haben, die sehr nahe beieinander oder weit entfernt sind. Dies hat mit der Strategie zum Trainieren des Systems zu tun, wenn ein neues Vokabular aufgebaut werden soll, wie z. B. in der anfänglichen Phase, oder direkt nach einem Ereignis, wie z. B. der Änderung der Benutzergemeinschaft, was wahrscheinlich eine bedeutende Anzahl von neuen Deskriptoren bringt und manche der alten Deskriptoren als veraltet betrachtet. Man könnte mit Gewichten beginnen, die nahe beieinander liegen, so daß Verbindungen ohne weiteres zwischen Datenstücken und neuen Deskriptoren hergestellt werden können, und später können die Gewichte weiter entfernt gelassen werden, wenn sich das Vokabular für die Beschreibung stabilisiert.

Claims

Ein Verfahren zum Verfeinern von Deskriptoren, die Datenelementen zugeordnet sind, um ein Wiedergewinnen derselben zu ermöglichen, wobei das Verfahren folgende Schritte aufweist: Speichern der Datenelemente in einer vollständigen Form, wobei ein oder mehrere Deskriptoren einem gespeicherten Datenelement zugeordnet werden; Empfangen einer Suchanforderung von einem Benutzer für eine Auswahl von Datenelementen, wobei die Anforderung zumindest einen Deskriptor umfaßt; Senden eines Suchergebnisses an den Benutzer, das nur eine Zusammenfassungsform von Datenelementen aufweist, die gemäß den Suchergebnissen ausgewählt werden; und Verwenden einer Antwort des Benutzers, der die vollständige Form eines ausgewählten Datenelements in dem Suchergebnis anfordert, um, ohne eine weitere Intervention des Benutzers, die Zuordnung zwischen dem ausgewählten Datenelement und einem oder mehreren Deskriptoren zu modifizieren.
Das Verfahren gemäß Anspruch 1, bei dem die Datenelemente ein beliebiges oder mehrere Elemente aus Bildern, Text, Audioaufzeichnungen oder Videoaufzeichnungen sind.
Das Verfahren gemäß Anspruch 2, bei dem die Datenelemente Bilder sind und die Zusammenfassungsformen Thumbnail-Versionen der Bilder aufweisen.
Das Verfahren gemäß Anspruch 1, bei dem eine weitere Antwort des Benutzers beim Auswählen einer weiteren Aktion im Hinblick auf die vollständige Form eines Datenelements, nachdem die vollständige Form geliefert worden ist, ebenfalls verwendet wird, um Modifizierungen der Dekriptoren zu leiten.
Das Verfahren gemäß Anspruch 1, bei dem die Zuordnung zwischen einem Datenelement und einem Deskriptor ein Gewicht aufweist, das die Stärke dieser Zuordnung anzeigt.
Das Verfahren gemäß Anspruch 5, bei dem die Modifizierung der Deskriptoren gemäß der Benutzerantwort eine Modifizierung des Gewichts der Zuordnung umfaßt.
Das Verfahren gemäß Anspruch 5 oder 6, bei dem eine Zuordnung zwischen einem Datenelement und einem Deskriptor einem ersten Gewicht nach einer anfänglichen Anforderung nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung, die diesen Deskriptor umfaßt, zugewiesen wird, bei dem das Gewicht nach anschließenden Anforderungen nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung, die diesen Deskriptor umfaßt, erhöht wird, und bei dem das Gewicht nach anschließenden Anforderungen nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung, die diesen Deskriptor nicht umfaßt, gesenkt wird.
Das Verfahren gemäß Anspruch 7, bei dem der Deskriptor für eine Wiedergewinnung des Datenelements verwendbar wird, wenn das Gewicht eine erste vorbestimmte Schwelle erreicht, und der Deskriptor für eine Wiedergewinnung dieses Datenelements nicht mehr verwendbar wird, wenn das Gewicht auf eine zweite vorbestimmte Schwelle abfällt.
Das Verfahren gemäß Anspruch 7 oder 8, bei dem die Veränderung des Gewichts für anschließende Anforderungen nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung gemäß einer Exponentialfunktion bestimmt wird.