DE69910466T2 - Verfahren zum Verfeinern von Deskriptoren - Google Patents

Verfahren zum Verfeinern von Deskriptoren Download PDF

Info

Publication number
DE69910466T2
DE69910466T2 DE69910466T DE69910466T DE69910466T2 DE 69910466 T2 DE69910466 T2 DE 69910466T2 DE 69910466 T DE69910466 T DE 69910466T DE 69910466 T DE69910466 T DE 69910466T DE 69910466 T2 DE69910466 T2 DE 69910466T2
Authority
DE
Germany
Prior art keywords
user
data
weight
keyword
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69910466T
Other languages
English (en)
Other versions
DE69910466D1 (de
Inventor
Aymeric Riverieulx De Varax
Michal Morciniec
Kave Eshghi
Jean-Jacques Moreau
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9825662.1A external-priority patent/GB9825662D0/en
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of DE69910466D1 publication Critical patent/DE69910466D1/de
Application granted granted Critical
Publication of DE69910466T2 publication Critical patent/DE69910466T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Technisches Gebiet
  • Diese Erfindung bezieht sich auf Verfahren zum Verfeinern von Deskriptoren, wie sie z. B. zum Wiedergewinnen von Datenelementen aus Datenbanken verwendet werden.
  • Hintergrund der Technik
  • Ein Haupthindernis für die effiziente Wiedergewinnung von Daten ist der Weg, auf dem sie indexiert werden (d. h. das Auswählen von Deskriptoren oder Schlüsselwörtern). Momentan bestehen bekannte Wege zum Indexieren:
    • 1. Die Verwendung eines automatischen Indexierungstools, um Wörter aus Textdokumenten zu extrahieren oder Formen und Elemente in Bildern, Videos etc. zu erkennen. Dies basiert auf Künstlicher-Intelligenz-Techniken (AI-Techniken) und weist die Grenzen auf, die diese Technik bietet.
    • 2. Eine oder mehrere Personen führen die Indexierung manuell nach einer gründlichen Analyse der Daten durch. Dies ist üblicherweise genau aber basiert auf dem Vokabular des Indexierers und ihrer Wahrnehmung der Daten. (Für Bilder kann dies z. B. sehr subjektiv sein.) Es ist ebenfalls sehr zeitaufwendig.
  • Beide diese Techniken liefern einen Satz von Indexierungsschlüsselwörtern oder Deskriptoren, die statisch sind, und die sehr häufig zu einem Vokabular gehören, das inkonsistent und beschränkt ist. Personen jedoch, die das System eigentlich abfragen, liefern mögliche Schlüsselwörter in ihren Abfragen. Die Schlüsselwörter in den Abfragen sind vielleicht keine existierenden Deskriptoren, aber sie sind für die Daten relevant. Momentan bleiben diese Informationen unbenutzt und werden von dem System vergessen, sobald der Benutzer das System verläßt. Folglich sind die Indexierungsschlüsselwörter unangemessen, und es kann nichts getan werden, um dieselben zu verbessern, sogar wenn manche Leute gute Indexierungsausdrücke als ihre Suche liefern.
  • Wenn sich die üblicherweise verwendete Terminologie im Lauf der Zeit ändert (z. B. wird ein technischer Ausdruck durch einen anderen ersetzt), dann wird es notwendig, die gesamte Indexierung erneut durchzuführen, was unerwünscht ist, besonders da die Datenbanken immer größer und größer werden.
  • Furnas George W. „Experience with an adaptive indexing scheme" CHI '85, Conference Proceedings: Human Factors in Computer Systems, S. 131–135, ACM New York 1985, offenbart ein Wiedergewinnungssystem, bei dem die Indexierungsschlüsselwörter an Deskriptoren nicht statisch sind.
  • Bei diesem System wird der Benutzer nachdem ein Suchergebnis zu ihm geliefert wurde gefragt, ob der Index modifiziert werden soll. Es besteht ein Bedarf, die Effizienz solcher Wiedergewinnungssysteme zu verbessern, durch Reduzieren der Benutzerintervention.
  • Offenbarung der Erfindung
  • Es wird ein Verfahren zum Verfeinern von Deskriptoren geschaffen, die Datenelementen zugeordnet sind, um eine Wiedergewinnung derselben zu ermöglichen, das folgende Schritte aufweist:
    Speichern der Datenelemente in einer vollständigen Form, wobei ein oder mehrere Deskriptoren einem gespeicherten Datenelement zugeordnet sind;
    Empfangen einer Suchanforderung von einem Benutzer für eine Auswahl von Datenelementen, wobei die Anforderung zumindest einen Deskriptor umfaßt;
    Senden eines Suchergebnisses an den Benutzer, das nur eine Zusammenfassungsform von Datenelementen aufweist, die gemäß den Suchergebnissen ausgewählt werden; und
    Verwenden einer Antwort des Benutzers, der die vollständige Form eines ausgewählten Datenelements in dem Suchergebnis anfordert, um ohne eine weitere Intervention des Benutzers die Zuordnung zwischen dem ausgewählten Datenelement und einem oder mehreren Deskriptoren zu modifizieren.
  • Kurze Beschreibung der Zeichnungen
  • Verfahren und Vorrichtungen gemäß dieser Erfindung zum Verfeinern von Deskriptoren, die Datenartikeln zugeordnet sind, werden nun beispielhaft Bezug nehmend auf die beiliegenden Zeichnungen beschrieben, in denen:
  • 1 und 2 beim Beschreiben unterschiedlicher Indexierungssysteme verwendet werden;
  • 3 ein schematisches Blockdiagramm eines Systems zum Implementieren der Erfindung ist;
  • 4 eine adaptive Indexierung eines Bildes darstellt;
  • 5 verschiedene Stufen zeigt, die beim Verwalten eines Einschließens eines Elements in einen oder des Weglassens eines Artikels aus einem Satz von Deskriptoren umfaßt sind;
  • 6 eine Operation einer Technik zum Anpassen von Schlüsselwortgewichten zeigt; und
  • 7 eine Exponentialfunktion zeigt, die beim Entscheiden von Gewichtungsfaktoren verwendet wird, die an Deskriptoren angewendet werden.
  • Bester Modus zum Ausführen der Erfindung und industrielle Anwendbarkeit
  • Schlüsselwörter oder Deskriptoren, die in einem Datenbanksystem verfügbar sind, um einen Sucher zu einem bestimmten Element zu führen (wie z. B. einem Dokument oder Bild), unterscheiden sich häufig von den Deskriptoren, die den Inhalt dieses Artikels am besten beschreiben. Dies macht eine Informationswiedergewinnung manchmal ungenau und unerfolgreich. Bei einem traditionellen Wiedergewinnungssystem, das einen statischen Index durch algorithmische Einrichtungen liefert, kann der Index durch ein Datenelement-Schlüsselwort dargestellt sein, eine schwach besetzte Matrix M mit fester Dimensionalität (siehe 1). Ein Eingang in die Matrix M(d, i) ist eine Zahl, die die Bedeutung hat „das Datenelement d wurde mit einem Schlüsselwort i indexiert". Binärinformationen oder Schlüsselwortfrequenzen können gespeichert werden und dies führt zu traditionellen binären oder probabilistischen Wiedergewinnungssystemen. Die größte Schwäche des Lösungsansatzes der statischen Indexierung ist eine Benutzersystem-Vokabularfehlübereinstimmung (Bedarf nach Thesauren, Stammbildung und grober Übereinstimmung) und ein Bedarf nach einem Abbilden einer Benutzerabfrage in die Indizes, die das System verwendet.
  • Es wäre wünschenswert, die Schlüsselwörter zu erfassen, die durch Benutzer während des Suchens geliefert werden, und dieselben zu den Elementen zuzuordnen, die Benutzer wiedergewonnen haben. Auf diese Weise kann sichergestellt werden, daß Elemente nützlich den Schlüsselwörtern zugeordnet werden, die Personen tatsächlich verwenden, um dieselben wiederzugewinnen.
  • Ein Beispiel der Erfindung wird hierin als adaptive Indexierung bezeichnet, wo die Elemente durch Bezugnahme auf implizite Beiträge von der gesamten Gemeinschaft indexiert werden, wenn Personen die Daten durchsuchen. Bei einer adaptiven Indexierung ist das System in der Lage, die Schlüsselwörter zu erfassen, die durch die Benutzergemeinschaft eingegeben wurden. Die erfaßten Informationen aus der Benutzerinteraktion während des Prozesses des Suchens und Browsens durch die Ergebnisse führt zu einem automatischen Thesaurusaufbau, einer allmählichen Konvergenz der Schlüsselwörter des Systems mit dem Vokabular der Benutzerpopulation und Indizes, die immer aktuell sind. Der dynamische Index könnte als eine Liste aus Schlüsselwörtern (2) visualisiert werden, wobei die enthaltene Liste alle Datenartikel aufzählt und die enthaltenen Listen alle Schlüsselwörter für ein gegebenes Datenelement aufzählen. Schlüsselwörter könnten ferner Einstufungen aufweisen, die an dieselben angebracht sind, gemäß ihrem Grad an Relevanz für das Datenelement. Die Liste wird erweitert, wenn ein neues Schlüsselwort eingegeben wird.
  • Bei diesem Szenario weist jedes Element oder Stück von Daten einen Satz von zugeordneten dynamischen Deskriptoren oder Schlüsselwörtern auf, die nicht statisch sind, die sich aber im Lauf der Zeit als ein Ergebnis aus Informationen von suchenden Personen ändern können. Jeder Deskriptor für ein gegebenes Datenstück weist ein Gewicht auf, das dessen Relevanz für dieses Datenstück mißt. Der Wert des Gewichts wird statisch durch die Suchen bestimmt. Zu einem Zeitpunkt wird der Deskriptor mit dem höchsten Gewicht zu dieser Zeit als die beste Beschreibung für das Datenstück betrachtet, da es die üblichste Beschreibung des Datenstücks war, die durch Personen unter Verwendung des Systems gegeben wurde. Der Deskriptor mit dem geringsten Gewicht ist für das Datenstück nicht sehr relevant, und wenn sich dessen Gewicht weiter verringert dann kann der Deskriptor an einem bestimmten Punkt entfernt werden (gesammelte wertlose Daten).
  • Eine Rückkopplung von Benutzern kann explizit (z. B. liefern Benutzer Anmerkungen darüber, wie nützlich oder relevant das Suchergebnis war) oder implizit (z. B. überwacht ein System, ob Personen Käufe bezüglich dem Inhalt des Suchergebnisses machen) sein. Bei der vorliegenden Anmeldung Bezug nehmend auf 3 und 4 ist die Rückkopplung implizit, d. h. der Benutzer weiß nichts über den Lernprozeß, der in dem System vorgeht. Folglich muß das System die Zuordnungen bewerten, die durch die Aktionen des Benutzers impliziert werden.
  • Bezug nehmend auf 3 betreibt ein Benutzer 10 einen Computeranschluß 12, um Suchanforderungen über eine Kommunikationsverbindung 14 (z. B. in einem Computerkommunikationsnetzwerk) zu einer Eingabe-/Ausgabe-Schnittstelle 16 zu senden. Die Schnittstelle 16 leitet die Suchanforderungen zu einem Prozessor 18 weiter, der Softwareprogrammbefehle ausführt, die in einem Speicher 20 gespeichert sind, um einen Datenspeicher 22 zu durchsuchen, der Datenelemente und zugeordnete Deskriptoren zum Indexieren derselben enthält. Die Programmbefehle können z. B. Suchmaschinenfunktionen zum Durchsuchen nach Datenartikeln umfassen, die spezifizierten Deskriptoren zugeordnet sind, und Funktionen zum Verwalten der Zuordnungen zu Deskriptoren.
  • Jedes Datenelement (Dokument, Bild etc.) wird in dem Datenspeicher 22 in zwei unterschiedlichen Formen gehalten:
    • – einer „Zusammenfassungsform", wo dasselbe minimal beschrieben ist, so daß der Benutzer schnell auf dessen Inhalte zugreifen kann. In dem Fall von Bildern kann die Zusammenfassung eine „kurze Skizze" (eine Version mit niedrigerer Auflösung und geringerem Maßstab als das Gesamtbild) möglicherweise mit einem Bildtitel oder anderen Informationen, wie z. B. dem Namen des Photographen oder Künstlers, oder eine Bildreferenznummer sein. Durch schnelles Untersuchen dieser Zusammenfassung kann der Benutzer eine anfängliche Meinung darüber bilden, ob dieses Element relevant für seine Abfrage sein kann.
    • – Eine „vollständige Form", die alle notwendigen Informationen über das Element enthält, um zu ermöglichen, daß eine Entscheidung darüber gemacht wird, ob sie relevant für die aktuelle Abfrage ist oder nicht. Für ein Bild würde diese vollständige Form z. B. das Bild mit einer ausreichend guten Auflösung aufweisen, um zu ermöglichen, daß Details der Zusammensetzung sowie die Qualität des Bildes eingeschätzt wird. Bei einem entfernten technischen Unterstützungssystem könnte es die gesamte Historie eines Rufs nach Unterstützung durch einen Benutzer sein, und die gegebene Hilfe und Anweisung (Frage/Antwort/Anmerkungen/Zeiger auf relevante Dokumente etc....).
  • Der Benutzer 10 liefert zuerst eine Abfrage, und der Prozessor 18 antwortet mit einer Liste von Zusammenfassungen von Elementen, die als potentiell relevant erscheinen. Der Benutzer browst durch diese Ergebnisliste und nach dem Finden eines Elements, das aus dessen Zusammenfassung als ähnlich zu dem erscheint, nach dem gesucht wird, greift er auf die vollständige Form dieses Artikels zu. Der Prozessor 18 behandelt diese Auswahl unter der Steuerung des Programms in dem Speicher 20 als ein implizites Signal, daß eine Zuordnung zwischen der anfänglichen Abfrage (Liste von Deskriptoren) und dem Element in der Datenbank gemacht wurde.
  • Folglich aktualisiert er die Deskriptoren des ausgewählten Elements dementsprechend in dem Datenspeicher 22. Alle Schlüsselwörter bei der Abfrage werden bei dieser Aktualisierung zu dem ausgewählten Element zugeordnet, unabhängig davon, ob dieselben bereits Deskriptoren für dieses Element waren oder nicht – auf diese Weise wendet das System neue Schlüsselwörter an.
  • Somit kann Bezug nehmend auf 4 ein Bild eines Schweines mit einem Wurf Ferkel, die neben einem Büschel Blumen stehen bereits gemäß den Ausdrücken Schwein, Bauernhof, Familie, Blumen und Feld indexiert sein. Ein Benutzer kann eine Suchabfrage eingeben, die die Ausdrücke, Schwein, Ferkel, Bauernhof, Land und Familie enthält. Da Land und Ferkel noch nicht als Deskriptoren für dieses Bild vorhanden sind, fügt das System dieselben hinzu. Es paßt ferner die Gewichtung der Deskriptoren in der Abfrage an (und erhöht dieselben), die diesem Element bereits zugeordnet sind (wie z. B. Schwein und Bauernhof). Wenn Blumen mit einer Nullgewichtung weiter besteht wird es schließlich als ein Deskriptor für dieses Bild entfernt.
  • Die Entwicklung der Gewichte der Deskriptoren für ein gegebenes Datenelement wird durch die Interaktionen der Benutzer maßgeschneidert. Je mehr Benutzer einen Deskriptor zu einem bestimmten Datenelement zuordnen, desto höher das resultierende Gewicht. Wenn sich die Beschreibung des Datenelements durch einen Benutzer ändert (z. B. durch die Entwicklung von Terminologie, historischen Ereignissen, neuer Terminologie, eines neuen Datenbereichs oder einem neuen Satz von Benutzern), entwickeln sich die Deskriptoren gemäß der Mehrheitsmeinung der Gemeinschaft von Benutzern, die die Daten suchen.
  • Da diese Technik auf rein impliziten Anzeigen basiert, kann die Möglichkeit von bestimmen unangemessenen Zuordnungen nicht verhindert werden. Zum Beispiel kann der Benutzer 10 nach einem Bild eines Löwen suchen, der seine Beute frißt.
  • Sie kann die Abfrage „Löwe frißt Beute" eingeben, und der Prozessor 18 gibt ein Bild einer Antilope zurück, die im Schatten eines Baumes ruht. Obwohl der Benutzer nicht interessiert ist, Rechte zu kaufen, um dieses Bild zu verwenden, findet er/sie es ansprechend und fordert die vollständige Form an, um das Bild aus reiner Neugier detaillierter zu sehen. Der Schlüsselworterfassungsprozeß, der durch den Prozessor 18 implementiert wird, reflektiert diese Aktion durch Verstärken oder erneutes Indexieren dieses Bild einer Antilope mit den Schlüsselwörtern „Löwe", „Fressen" und „Beute", wobei „Löwe" in dem Prozeß vielleicht ein neuer Deskriptor wird. Es ist ferner möglich, eine unangemessene Zuordnung zu machen, durch Zuordnen eines falsch geschriebenen Schlüsselworts zu einem Element.
  • Solche unangemessenen Zuordnungen sollten jedoch eine minimale Auswirkung auf das System haben, da eine individuelle Zuordnung die Schlüsselwortgewichtung nicht sehr viel ändert. Ein neu zugeordnetes Schlüsselwort nimmt keine maximale Bedeutung an, direkt nachdem die erste Zuordnung gemacht wird. Anders ausgedrückt ist mehr als eine einzelne Zuordnung nötig, um die Indexierung radikal zu ändern; bei einer Implementierung werden z. B. keine neuen Schlüsselwörter für die Suche verwendet, bis fünf Zuordnungen zu diesem Schlüsselwort gemacht wurden. Folglich wird ein falsch geschriebenes Schlüsselwort nur ein gültiger Deskriptor für das Datenelement, wenn es eine übliche Falschschreibung ist.
  • So weit wurde ein adaptives Indexieren im wesentlichen als ein Prozeß beschrieben, der stattfindet, wenn ein Zugriff auf die vollständige Form eines Datenelements für eine Vorschau/Überprüfung ausgeführt wird. Es ist jedoch ferner möglich, mehrere Auswirkungspegel auf die Indexierung einzuführen. Zum Beispiel ist es möglich, die Deskriptoren weiter zu stärken, wenn der Benutzer 10 entscheidet, die Rechte zur Verwendung eines Bildes tatsächlich zu kaufen.
  • Jede Zuordnung zwischen einem Deskriptor oder Schlüsselwort und einem Datenelement hat ein Gewicht, das ein Wert zwischen 0 und 1 ist. Dieses Gewicht kann auf eine von zwei Arten implementiert werden:
    • – fokussiertes Datenelement: Gewichte werden Datenelementen zugeordnet und eine Normierung wird relativ zu Datenelementen ausgeführt; dies impliziert ein Definieren, wie ein Datenelement beschrieben wird;
    • – Schlüsselwort fokussiert: Gewichte werden Schlüsselwörtern zugeordnet und eine Normierung wird relativ zu einem Schlüsselwort durchgeführt; dies impliziert ein Definieren, was ein Schlüsselwort bedeutet.
  • Bei dem vorliegenden Ausführungsbeispiel wird eine Schlüsselwort-fokussierte Gewichtung verwendet. Der Grund dafür ist hauptsächlich, sicherzustellen, daß Spezialisten-Schlüsselwörter, die sehr selten verwendet werden (aber die extrem gute Deskriptoren sind), das Ergebnis einer Abfrage trotzdem stark beeinflussen. Wenn der Datenelementfokussierte Lösungsansatz verwendet worden wäre, wäre das Gewicht von solch selten verwendeten Schlüsselwörtern klein im Vergleich zu dem Gewicht von anderen, üblicheren Schlüsselwörtern. Somit würde eine Abfrage, die ein übliches Schlüsselwort und ein unübliches Schlüsselwort kombiniert, ein Ergebnis mit vielen Elementen ergeben, die mit dem üblichen Schlüsselwort übereinstimmen, wodurch möglicherweise die Elemente überhäuft werden, die mit dem unüblichen aber äußerst relevanten Deskriptor übereinstimmen. Bei dem Schlüsselwort-fokussierten Lösungsansatz ist das Gewicht dieses unüblichen Deskriptors hoch, da die Zahl von Datenartikeln, die durch dieses spezifische Schlüsselwort beschrieben werden, gering ist.
  • Diese Wahl hat die Nebenwirkung, daß sie beliebten Datenelementen eine erhöhte Wichtigkeit zuordnet (was die Gewichte betrifft). Von einem Handelsstandpunkt aus ist dies vorteilhaft: in dem Fall von Bildern z. B. gibt es häufig Bilder, die zu einer Zeit besonders beliebt sind, gemäß einer aktuellen Mode.
  • Das Schlüsselwortgewicht wird verwendet, um die Wichtigkeit eines Schlüsselworts für ein bestimmtes Datenelement zu bewerten und ferner die Ergebnisse einer Benutzerabfrage rangmäßig zu bewerten. Bei dem hierin beschriebenen Ausführungsbeispiel werden für jedes Schlüsselwort drei unterschiedliche Gewichtwerte unterschieden, die den Status dieses Schlüsselworts bestimmen:
    • – wk 0: das anfängliche Gewicht, wenn das Schlüsselwort zuerst in das System eingegeben wird;
    • – wk User: die Schwelle für ein Schlüsselwort, um suchbar zu werden (d. h. beim Bestimmen in Betracht gezogen zu werden, ob ein Datenelement in dem Ergebnis einer Benutzerabfrage umfaßt sein sollte);
    • – wk GC: die Schwelle unter der ein Schlüsselwort „als wertlose Daten gesammelt" wird (d. h. nicht mehr beim Anordnen von Ergebnissen für Benutzerabfragen verwendet wird).
  • Die spezifische Berechnung von jedem dieser Werte hängt von der adaptiven Indexierung des angenommenen Algorithmus ab.
  • Ferner weist jedes Schlüsselwort einen Status auf, der durch diese Gewichtwerte bestimmt wird, der den Einfluß des Benutzers reflektiert, wie er durch ihre Reaktionen auf Abfrageergebnisse impliziert wird:
    • 1. Hauptschlüsselwort: das Hauptschlüsselwort wird durch den Inhaltsanbieter oder durch einen professionellen Indexierer (dies ist der Original-Deskriptor) bereitgestellt. Dieses Schlüsselwort kann nicht durch das System entfernt werden ohne die ausdrückliche Zustim mung eines Überwachers. Der Grund dafür ist, daß einige Ausdrücke für das Datenelement sehr spezifische sind oder sogar Schlüsseldeskriptoren sind, aber daß dieselben nicht häufig verwendet werden, da der durchschnittliche Benutzer (allgemeine Öffentlichkeit) nicht vertraut mit denselben ist. Trotzdem ermöglicht ihre Aufnahme Spezialisten, schnell auf die Datenelemente zuzugreifen.
    • 2. Benutzerschlüsselwort: dieses Schlüsselwort wurde durch einen Benutzer bereitgestellt (allgemeine Öffentlichkeit); es ist suchbar, da eine beträchtliche Anzahl von Personen dieses Schlüsselwort bereits einem bestimmten Datenelement zugeordnet hat.
    • 3. Kandidatenschlüsselwörter: es bestehen zwei unterschiedliche Typen von Kandidatenschlüsselwort, die zwei unterschiedliche Typen von Übergang für ein Schlüsselwort reflektieren. In jedem Fall sind sie nicht „aktiv" (nicht suchbar). Sie werden als wertlose Daten gesammelt, wenn ihr Gewicht unter einen bestimmten Wert (wk GC) fällt, oder sie werden zu Benutzerschlüsselwörtern, wenn ihr Gewicht über einen gegebenen Wert (wk User) steigt.
    • – Kandidat für ein Benutzerschlüsselwort: dies ist der anfängliche Status für ein neues Schlüsselwort, das in das System eingegeben wird. Dieses Schlüsselwort ist noch nicht suchbar, da es falsch geschrieben oder eine unangemessene Zuordnung sein könnte, wie oben beschrieben wurde. Dieser Status reduziert das Risiko, daß der Suchprozeß durch das Vorhandensein einer großen Anzahl von „wertlosen" Schlüsselwörtern verlangsamt wird. Dies macht jedoch auch die Hinzufügung eines neuen Schlüsselworts schwerer, da es in Zuordnung mit einem existierenden Schlüsselwort für ein Datenelement mehrere Male verwendet werden muß, bevor es die Schwelle überschreitet, um selbst ein Benutzerschlüsselwort zu werden;
    • – Kandidat für Wertlose-Daten-Sammlung: dieser Status ist für Benutzerschlüsselwörter reserviert, deren Gewicht sich auf das ursprüngliche Einführungsgewicht (wk 0) verringert, d. h., sie wurden zu Benutzerschlüsselwörtern aber sie wurden danach selten verwendet. Dies könnte z. B. entweder aufgrund der Entwicklung des Vokabulars oder durch eine Eingabe eines unangemessenen Schlüsselworts zu einem Zeitpunkt passieren.
  • 5 zeigt die möglichen Übergänge zwischen diesen unterschiedlichen möglichen Status und die entsprechenden Werte für das Gewicht wk 0, die bei jedem Übergang resultieren.
  • Verschiedene unterschiedliche Techniken zum Variieren des Werts des Gewichts wk 0 können verwendet werden. Zwei werden nachfolgend beschrieben. Die erste ist eine direkte Interpretation von einfachen probabilistischen Regeln. Die zweite ist empirischer und zielt darauf ab, die Gewichte zu zwingen sich nach einer Exponentialkurve zu entwickeln.
  • Bei der ersten Technik ist das Gewicht für eine gegebene Zeitperiode fest. An dem Ende jeder Periode wird das Gewicht gemäß dem Ausmaß der Zuordnung neu bewertet, die während dieser Periode aufgetreten ist. Die Dauer einer Periode ist der einzige zufällige Parameter. Er hängt von der Gesamtanzahl von Datenelementen und von dem Ausmaß der Verwendung des Suchsystems ab (Anzahl von Abfragen pro Tag, z. B.). Am Anfang jeder Periode werden für jedes Schlüsselwort k zwei Zähler auf 0 gesetzt:
    • – Ck stellt die Anzahl von Malen dar, die das Schlüsselwort zu Datenelementen zugeordnet wurde (unabhängig davon, ob es zu unterschiedlichen Datenelementen oder viele Male zu demselben Datenelement war);
    • – Ck,i stellt die Anzahl von Malen dar, die ein Schlüsselwort einem Datenelement i zugeordnet wurde. An dem Ende der Periode wird das Gewicht der Zuordnung zwischen einem Schlüsselwort und einem Datenelement definiert durch wk,i = (Ck,i/Ck) wenn Ck ungleich 0 ist wk,i = 0 ansonsten
  • Anders ausgedrückt stellt das Gewicht die Wahrscheinlichkeit dar, daß das Datenelement i durch das Schlüsselwort k indexiert wird. Unter diesen Umständen ist das Startgewicht wk 0 für ein neues Schlüsselwort proportional zu 1/Ck. Die zwei anderen Schwellen wk User und wk GC sind willkürlich und sind für alle Schlüsselwörter gleich. Ein Nachteil dieses Verfahrens ist, daß die Geschichte, die einem Gewicht zugeordnet ist, relativ beschränkt und sehr abhängig von der Aktivität des Suchsystems ist, und genauer gesagt von dem Ausmaß der Verwendung des Schlüsselworts.
  • Die Listen von Schlüsselwörtern könnten gemäß normierten Einstufungen sortiert und in quantisierte Intervalle einer festen Länge in Proportion zu der Wahrscheinlichkeit der Indexierung eines Datenelements jedes Schlüsselworts sortiert werden. Schlüsselworte würden auf der Basis von Gewicht konkurrieren, um auf das höhere Intervall befördert zu werden, und würden nach unten zu dem niedrigeren Intervall durch angemessenere Schlüsselwörter bewegt werden. Zustände können für das Überkreuzen von Intervallgrenzen spezifiziert werden, um zu verhindern, daß Schlüsselwörter zwischen Intervallen hin- und herschwanken (siehe 6). Schlüsselwortwahrscheinlichkeiten können quantisiert werden, um Speicherung zu sparen (ein Byte ergibt 256 Bereiche einer Länge von 0,004, die ausreichend sein könnte).
  • Bei der zweiten Exponentialfunktionstechnik folgt das Gewicht einer Kurve, die aus zwei Exponentialkurven zusammen gesetzt ist (siehe 7). Somit wird das Erhöhen und Verringern der Gewichte auf eine einfache Multiplizierung mit einem spezifischen Koeffizienten reduziert. Jede Zuordnung eines Datenartikels zu demselben Schlüsselwort folgt derselben Kurve abhängig von dem anfänglichen Gewicht.
  • Der Einfachheit und der Effizienz der Berechnung halber ist es bevorzugt, den Wert v = w – 1 anstatt von w selbst zu speichern. Nachfolgend wird v als der „Beziehungskoeffizient" bezeichnet. Zusätzlich dazu werden die nachfolgenden Bezeichnungen verwendet:
    vik Beziehungskoeffizient der Zuordnung [i, k]
    vk 0 anfänglicher Beziehungskoeffizient für Zuordnungen zu dem Schlüsselwort k
    vk User Benutzerbeziehungskoeffizient für Zuordnungen zu dem Schlüsselwort k
    vk GC GC-Beziehungskoeffizient für Zuordnungen zu dem Schlüsselwort k
    nk Anzahl von Datenelementen, die durch das Schlüsselwort k bei aktiven Zuordnungen indexiert wurden
  • Die nachfolgenden Anforderungen können ohne weiteres sichergestellt werden:
    • – Gewichteinschränkung, um ein Relevanzgewicht darzustellen (d. h. wik ϵ]0,1[oder vik ϵ]–1,0[)
    • – die Anzahl NUser von Interaktionen, die für ein Schlüsselwort bei einer Zuordnung benötigt wird, um ein aktives Schlüsselwort zu werden, kann gesteuert werden (d. h. die Gesamtanzahl von Zuordnungen dieses Schlüsselworts zu diesem Datenelement müßte vik > vk User sein)
    • – die Anzahl NGC von negativen Interaktionen, die für ein Schlüsselwort bei einer Zuordnung benötigt werden, um ein Kandidat für eine Wertlose-Daten-Sammlung zu werden, kann gesteuert werden (d. h. die Anzahl von Zuordnungen, die benötigt werden, für vik < vk 0)
    • – Umkehrbarkeit einer Aktualisierung (d. h. vik einmal erhöht und nk mal verringert kehrt zu dem anfänglichen Wert vor der Erhöhung zurück)
  • Das Gewichtaktualisierungsverfahren erfordert eine anfängliche Einstellung für den Beziehungskoeffizienten. Für jede Zuordnung zwischen einem Schlüsselwort und einem Datenelement wird dieser Beziehungskoeffizient erhöht oder verringert. In dem Fall einer neuen Zuordnung wird derselbe in den Datenspeicher 22 eingegeben, und wenn diese neue Zuordnung mit einem neuen Schlüsselwort gemacht wird, wird dieses Schlüsselwort ebenfalls in den Datenspeicher 22 eingegeben.
  • Die Beziehungskoeffizienten für ein Schlüsselwort werden zuerst initialisiert abhängig von der Anzahl von Datenelementen, die durch das Schlüsselwort indexiert werden. Es wird darauf hingewiesen, daß je mehr Datenelemente ein Schlüsselwort indexiert, desto weniger relevant sollte es anfänglich sein, um die Datenelemente zu beschreiben.
  • Somit kann wk 0 folgende Form annehmen:
  • Figure 00160001
  • Aus praktischen Gründen ist es unerwünscht, wenn der anfängliche Beziehungskoeffizient zu hoch ist, somit wird 2 bei der Formel zu nk addiert. Dies ist beliebig und unterschiedliche Werte könnten hier verwendet werden.
  • Für jeden Teil der Kurve (Teil 1 und Teil 2, 7) liegt ein jeweiliger Erhöhungskoeffizient und ein Verringerungskoeffizient vor. Diese Koeffizienten sowie der anfängliche Beziehungskoeffizient, sind für jedes Schlüsselwort spezifisch.
  • Teil 2 der Kurve: wenn v ≥ v0
  • Wenn f die Funktion ist, die diesen Teil beschreibt, mit den zwei anfänglichen Zuständen f(0) = vk 0 und der Steigung f(0) = s, wird der folgende Ausdruck für f erhalten:
  • Figure 00170001
  • Erhöhungskoeffizientgleichung (berechnet aus f(x + 1)):
    Figure 00170002
  • Verringerungskoeffizientgleichung (berechnet aus f(x – 1/nk))
    Figure 00170003
  • Teil 1 der Kurve: wenn v < v0
  • Wenn g die Funktion ist, die diesen Teil beschreibt, mit den zwei anfänglichen Zuständen g(0) = vk 0 und der Steigung g'(0) = s, wird der nachfolgende Ausdruck für g erhalten:
  • Figure 00170004
  • Erhöhungskoeffizientgleichung (berechnet aus g(x + 1)):
    Figure 00180001
  • Verringerungskoeffizientengleichung (berechnet aus g(x – 1/nk))
    Figure 00180002
  • In 7 stellt die x-Achse die Anzahl N von Zuordnungen zwischen einem Schlüsselwort und einem Datenelement dar. Die exakte Ableitung von N ist: N = N+ – N·1/nk wobei N+ die Anzahl von Malen darstellt, die die Zuordnung in [i, k] durchgeführt wurde, und N die Anzahl von Malen darstellt, die die Zuordnungen [j, k] für j ≠ i durchgeführt wurden.
  • Der User- und GC-Beziehungskoeffizient werden wie folgt hergeleitet:
  • Benutzerbeziehungskoeffizient Vk User
  • Dies stellt den Wert von v dar, der genommen wird, nachdem Nuser-Zuordnungen aufgetreten sind, ohne eine Verringerung, da die Zuordnung erzeugt wurde (d. h. weil v = v0).
  • Figure 00180003
  • GC-Beziehungskoeffizient vk GC
  • Dies stellt den Wert von v dar, der den Wert des anfänglichen Beziehungskoeffizienten v0 annehmen würde, nachdem NGC negative Interaktionen aufgetreten sind, ohne eine Verringerung.
  • Figure 00190001
  • Der Koeffizient nk zählt Zuordnungen zu dem Schlüsselwort k, die aktiv sind, was bedeutet, daß die anderen Koeffizienten vk 0, C(1) inc, C(2) inc, C(1) dec, und C(2) dec, sich nur auf die aktiven Schlüsselwörter beziehen. Wenn sich der Status eines Schlüsselworts k in einer Zuordnung ändert, muß der Wert von nk erhöht werden (Kandidatenschlüsselwort oder Benutzerschlüsselwort) oder verringert werden (Benutzerschlüsselwort zu Kandidat für GC-Schlüsselwort). Dann müssen alle anderen Koeffizienten neu berechnet werden.
  • Wenn eine neue Zuordnung zu einem neuen Schlüsselwort k gemacht wird, sollte das System den Wert von nk auf 1 initialisieren und dann vk 0, C(1) inc, C(2) inc, C(1) dec, und C(2) dec berechnen. Dann wird die Zuordnung zwischen dem Datenelement und dem Schlüsselwort erzeugt, und vik erhält den Beziehungskoeffizientenwert vk 0.
  • Wenn eine neue Zuordnung gemacht wird, aber mit einem Schlüsselwort k, das bereits in dem System vorliegt (d. h. Indexieren anderer Datenartikel), wird diese neue Zuordnung erzeugt und ihr Beziehungskoeffizient wird auf vk 0 initialisiert. Da dies noch kein aktives Schlüsselwort für dieses Datenelement ist, wird es nicht in nk gezählt, so daß die anderen Koeffizienten noch nicht neu berechnet werden.
  • Einige Beispielszenarios, die die vorliegende Erfindung umfaßt, werden nun kurz beschrieben:
    • 1) Indexieren neuer Datenartikel: ein Stapel von Photographien muß zu dem Bilddepot hinzugefügt werden und es besteht eine Gemeinschaft von Bildindexierern (dies könnten die Benutzer sein, die durch die Sammlung browsen). Jedem Indexierer wird ein beliebig ausgewähltes Bild aus dem neuen Stapel gegeben und er wird aufgefordert, die Schlüsselwörter zu liefern. Diese werden zu dem Schlüsselwortsatz hinzugefügt, der das Bild indexiert, oder wenn das Schlüsselwort bereits vorhanden ist, wird der Zähler, der demselben zugeordnet ist, inkrementiert. Vorausgesetzt, daß Benutzer einem Teilsatz von Schlüsselwörtern für ein gegebenes Bild zustimmen, würden diese schließlich mit der höheren Einstufung auftreten.
    • 2) Suchen einer indexierten Sammlung von Datenelementen: die Sammlung von Photographien wird mit Schlüsselwörtern durch eine große Benutzergemeinde durchsucht. Die Kandidatenphotographien, die gemäß den Schlüsselwörtern ausgewählt werden, sind in Skizzenform gezeigt, und sobald ein Skizzenbild zum Betrachten der vollständigen Version in voller Größe und Auflösung ausgewählt wird, modifizieren die Suchschlüsselwörter bestehende Indizes um einen geringen Faktor (Lernrate). Wenn der Benutzer nachfolgend auswählt, eine Kopie des Bildes zu kaufen, kann die Zuordnung der Suchschlüsselwörter zu dem Bild entsprechend weiter gefestigt werden. Man könnte versuchen, den Thesaurus automatisch unter der Annahme zu erhalten, daß zwei nachfolgend eingegebene Schlüsselwörter semantisch aufeinander bezogen sind (angenommen die Schlüsselwörter sind nur Nomen). Dies ist eine sehr schwache Annahme, und die meisten der Paare würde ein „Rauschen" bilden (d. h. sie weisen eine sehr geringe Wahrscheinlichkeit auf, durch einen anderen Benutzer eingegeben zu werden), aber konsistent eingegebene Schlüsselwortpaare würden durch das Einstufungsverfahren entstehen.
  • Es existieren viele Anwendungen für eine adaptive Indexierung. Das Word Wide Web liefert eine besonders attraktive Möglichkeit, da seine Benutzergemeinde riesig und vielfältig ist. Menschen verwenden das Web, um nach Informationen eines beliebigen Typs zu suchen, und sind empfindlich gegenüber Verzögerungen bei der Suche, so daß die Qualität der Indexierung sehr wichtig ist. Das Web ändert sich ferner sehr schnell, wenn sich die Technik entwickelt: es besteht ein Bedarf nach einem Maximum an Dynamität sowie einer Verfügbarkeit von Informationen.
  • Eine adaptive Indexierung könnte ferner sehr nützlich für kleinere Benutzergemeinden sein. Eine körperschaftliche Benutzergemeinschaft kann das Suchtool z. B. trainieren, um sein eigenes spezialisiertes Vokabular zu verwenden. Da das Indexieren adaptiv ist, können die Indizes spezifisch oder für einen bestimmten Bereich zweckgebunden sein.
  • Dieses System wäre äußerst nützlich für Bildbibliotheken, da automatische Tools zum Indexieren von Bildern sehr schwierig herzustellen sind. Der Weg, wie ein Bild beschrieben wird, hängt ferner davon ab, was bei einem Bild berücksichtigt wird: es können die Elemente sein, die in dessen Zusammensetzung eingehen, oder das Gefühl, das es verursacht. Ein adaptives Indexierungstool baut einen Satz von Deskriptoren auf, die reflektieren, was die Mehrzahl von Menschen, die die Bildbibliothek durchsuchen, über ein Bild denken, wodurch es durch die Mehrheit einfach wiederzugewinnen wird.
  • Einerseits kann diese Technik daher verwendet werden, um das Web zu indizieren und ein Datenelement leicht durch einen Großteil von Menschen erreichbar zu machen, die nach demselben suchen, und andererseits ermöglicht es die Verwendung eines sehr eingeschränkten Vokabulars zum Indexieren bei einer kleineren Benutzergemeinschaft mit starren Regeln. Das System paßt sich selbst an die Umgebung an und kann reibungslos von einer Umgebung zu einer anderen bewegt werden.
  • In der Tat versucht dieses System, eine wahre Wahrnehmung von Objekten in der Umgebung zu erfassen. Wir alle haben unterschiedliche Wege, etwas zu beschreiben, aber die Beschreibung, die in der entsprechenden Gemeinschaft am häufigsten verwendet wird, kann als die demokratische Beschreibung betrachtet werden. Somit kann ein adaptives Indexierungssystem als ein Depot für menschliches Wissen wirken und das Machen von „Schnappschüssen" von dem Zustand des Systems von Zeit zu Zeit könnte langfristig einen Vergleich von Kulturen ermöglichen.
  • Obwohl das System seine Indizes automatisch ohne eine Intervention anpassen kann, besteht ferner die Möglichkeit, daß ein Verwalter des Systems einige Parameter gemäß den benötigten Suchkapazitäten einstellen kann:
    • – Modifizierung der Anzahl von Deskriptoren für die Daten. Durch Modifizieren der Schwelle des Minimalgewichts oder der Gesamtanzahl von zulässigen Deskriptoren kann entschieden werden, wie umfassend das Vokabular sein wird.
    • – Modifizierung der Amplitude des Gewichts: der Verwalter kann wählen, ob es angemessen ist, Gewichte zu haben, die sehr nahe beieinander oder weit entfernt sind. Dies hat mit der Strategie zum Trainieren des Systems zu tun, wenn ein neues Vokabular aufgebaut werden soll, wie z. B. in der anfänglichen Phase, oder direkt nach einem Ereignis, wie z. B. der Änderung der Benutzergemeinschaft, was wahrscheinlich eine bedeutende Anzahl von neuen Deskriptoren bringt und manche der alten Deskriptoren als veraltet betrachtet. Man könnte mit Gewichten beginnen, die nahe beieinander liegen, so daß Verbindungen ohne weiteres zwischen Datenstücken und neuen Deskriptoren hergestellt werden können, und später können die Gewichte weiter entfernt gelassen werden, wenn sich das Vokabular für die Beschreibung stabilisiert.

Claims (9)

  1. Ein Verfahren zum Verfeinern von Deskriptoren, die Datenelementen zugeordnet sind, um ein Wiedergewinnen derselben zu ermöglichen, wobei das Verfahren folgende Schritte aufweist: Speichern der Datenelemente in einer vollständigen Form, wobei ein oder mehrere Deskriptoren einem gespeicherten Datenelement zugeordnet werden; Empfangen einer Suchanforderung von einem Benutzer für eine Auswahl von Datenelementen, wobei die Anforderung zumindest einen Deskriptor umfaßt; Senden eines Suchergebnisses an den Benutzer, das nur eine Zusammenfassungsform von Datenelementen aufweist, die gemäß den Suchergebnissen ausgewählt werden; und Verwenden einer Antwort des Benutzers, der die vollständige Form eines ausgewählten Datenelements in dem Suchergebnis anfordert, um, ohne eine weitere Intervention des Benutzers, die Zuordnung zwischen dem ausgewählten Datenelement und einem oder mehreren Deskriptoren zu modifizieren.
  2. Das Verfahren gemäß Anspruch 1, bei dem die Datenelemente ein beliebiges oder mehrere Elemente aus Bildern, Text, Audioaufzeichnungen oder Videoaufzeichnungen sind.
  3. Das Verfahren gemäß Anspruch 2, bei dem die Datenelemente Bilder sind und die Zusammenfassungsformen Thumbnail-Versionen der Bilder aufweisen.
  4. Das Verfahren gemäß Anspruch 1, bei dem eine weitere Antwort des Benutzers beim Auswählen einer weiteren Aktion im Hinblick auf die vollständige Form eines Datenelements, nachdem die vollständige Form geliefert worden ist, ebenfalls verwendet wird, um Modifizierungen der Dekriptoren zu leiten.
  5. Das Verfahren gemäß Anspruch 1, bei dem die Zuordnung zwischen einem Datenelement und einem Deskriptor ein Gewicht aufweist, das die Stärke dieser Zuordnung anzeigt.
  6. Das Verfahren gemäß Anspruch 5, bei dem die Modifizierung der Deskriptoren gemäß der Benutzerantwort eine Modifizierung des Gewichts der Zuordnung umfaßt.
  7. Das Verfahren gemäß Anspruch 5 oder 6, bei dem eine Zuordnung zwischen einem Datenelement und einem Deskriptor einem ersten Gewicht nach einer anfänglichen Anforderung nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung, die diesen Deskriptor umfaßt, zugewiesen wird, bei dem das Gewicht nach anschließenden Anforderungen nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung, die diesen Deskriptor umfaßt, erhöht wird, und bei dem das Gewicht nach anschließenden Anforderungen nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung, die diesen Deskriptor nicht umfaßt, gesenkt wird.
  8. Das Verfahren gemäß Anspruch 7, bei dem der Deskriptor für eine Wiedergewinnung des Datenelements verwendbar wird, wenn das Gewicht eine erste vorbestimmte Schwelle erreicht, und der Deskriptor für eine Wiedergewinnung dieses Datenelements nicht mehr verwendbar wird, wenn das Gewicht auf eine zweite vorbestimmte Schwelle abfällt.
  9. Das Verfahren gemäß Anspruch 7 oder 8, bei dem die Veränderung des Gewichts für anschließende Anforderungen nach der vollständigen Form dieses Datenelements von einer Benutzersuchanforderung gemäß einer Exponentialfunktion bestimmt wird.
DE69910466T 1998-02-20 1999-02-19 Verfahren zum Verfeinern von Deskriptoren Expired - Lifetime DE69910466T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP98301261 1998-02-20
EP98301261 1998-02-20
GB9825662 1998-11-25
GBGB9825662.1A GB9825662D0 (en) 1998-11-25 1998-11-25 Methods of refining descriptors

Publications (2)

Publication Number Publication Date
DE69910466D1 DE69910466D1 (de) 2003-09-25
DE69910466T2 true DE69910466T2 (de) 2004-06-24

Family

ID=26151147

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69910466T Expired - Lifetime DE69910466T2 (de) 1998-02-20 1999-02-19 Verfahren zum Verfeinern von Deskriptoren

Country Status (3)

Country Link
US (1) US6507841B2 (de)
EP (1) EP0938053B1 (de)
DE (1) DE69910466T2 (de)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6058417A (en) 1998-10-23 2000-05-02 Ebay Inc. Information presentation and management in an online trading environment
AU744893B2 (en) * 1999-01-29 2002-03-07 Canon Kabushiki Kaisha Applying a set of rules to a description of a resource
US7146354B1 (en) * 1999-06-18 2006-12-05 F5 Networks, Inc. Method and system for network load balancing with a compound data structure
KR100346262B1 (ko) * 1999-08-27 2002-07-26 엘지전자주식회사 멀티미디어 데이타의 키워드 자가 생성방법
US6859802B1 (en) 1999-09-13 2005-02-22 Microsoft Corporation Image retrieval based on relevance feedback
US6847963B1 (en) * 1999-10-12 2005-01-25 Bea Systems, Inc. Method and system for appending search strings with user profile qualities
US6569206B1 (en) 1999-10-29 2003-05-27 Verizon Laboratories Inc. Facilitation of hypervideo by automatic IR techniques in response to user requests
US6996775B1 (en) * 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6757866B1 (en) * 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US7103605B1 (en) * 1999-12-10 2006-09-05 A21, Inc. Timeshared electronic catalog system and method
US6704727B1 (en) * 2000-01-31 2004-03-09 Overture Services, Inc. Method and system for generating a set of search terms
JP4608740B2 (ja) * 2000-02-21 2011-01-12 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US20050171932A1 (en) * 2000-02-24 2005-08-04 Nandhra Ian R. Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
WO2001063465A1 (en) * 2000-02-25 2001-08-30 Fordyce, Louise, Aileen Document assembly from a database
US6901378B1 (en) 2000-03-02 2005-05-31 Corbis Corporation Method and system for automatically displaying an image and a product in a page based on contextual interaction and metadata
US6965889B2 (en) * 2000-05-09 2005-11-15 Fair Isaac Corporation Approach for generating rules
JP2001337980A (ja) 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
US7673229B1 (en) 2000-06-07 2010-03-02 Ebay Inc. Apparatus and method for generating sub-codes to a turbo-encoder
US20060074727A1 (en) 2000-09-07 2006-04-06 Briere Daniel D Method and apparatus for collection and dissemination of information over a computer network
FR2815743B1 (fr) * 2000-10-25 2004-03-05 Gilles Marie Francois Tardy Procede de description d'images par separation de calques
KR100516289B1 (ko) * 2000-11-02 2005-09-21 주식회사 케이티 퍼지 적분을 이용하여 사용자 의견을 반영한 내용기반영상 검색 장치 및 그 방법
DE10054583C2 (de) * 2000-11-03 2003-06-18 Digital Design Gmbh Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
KR100422710B1 (ko) * 2000-11-25 2004-03-12 엘지전자 주식회사 다중 가중치 구조를 사용한 멀티미디어 검색 방법
US8060906B2 (en) * 2001-04-06 2011-11-15 At&T Intellectual Property Ii, L.P. Method and apparatus for interactively retrieving content related to previous query results
US20020198979A1 (en) * 2001-06-13 2002-12-26 Allen Yu Weighted decay system and method
WO2003094153A1 (de) * 2002-04-29 2003-11-13 Digital Design Gmbh Verfahren und vorrichtung zur behandlung von sprachinformationen
EP1359566A1 (de) * 2002-04-29 2003-11-05 Digital Design GmbH Verfahren und Anordnung zur sprachbasierten Nutzung von Speichersystemen sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium
JP4208484B2 (ja) * 2002-05-23 2009-01-14 シャープ株式会社 情報処理方法、情報処理システム、情報取得装置、コンピュータプログラム、及び記録媒体
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US20040199491A1 (en) * 2003-04-04 2004-10-07 Nikhil Bhatt Domain specific search engine
EP1611546B1 (de) 2003-04-04 2013-01-02 Icosystem Corporation Verfahren und systeme zur interaktiven evolutionären datenverarbeitung (iec)
EP1631962A1 (de) * 2003-05-26 2006-03-08 Koninklijke Philips Electronics N.V. System und verfahren zum erzeugen audiovisueller zusammenfassungen für audiovisuellen programminhalt
US7451168B1 (en) 2003-06-30 2008-11-11 Data Domain, Inc. Incremental garbage collection of data in a secondary storage
US7424498B1 (en) 2003-06-30 2008-09-09 Data Domain, Inc. Probabilistic summary data structure based encoding for garbage collection
US7333960B2 (en) 2003-08-01 2008-02-19 Icosystem Corporation Methods and systems for applying genetic operators to determine system conditions
US20060288006A1 (en) * 2003-10-23 2006-12-21 Xerox Corporation Methods and systems for attaching keywords to images based on database statistics
WO2005050371A2 (en) * 2003-11-13 2005-06-02 Knowledgeworks A system for obtaining, managing and providing retrieved content
US8150825B2 (en) 2004-03-15 2012-04-03 Yahoo! Inc. Inverse search systems and methods
US7590619B2 (en) * 2004-03-22 2009-09-15 Microsoft Corporation Search system using user behavior data
US7707220B2 (en) * 2004-07-06 2010-04-27 Icosystem Corporation Methods and apparatus for interactive searching techniques
EP1782285A1 (de) * 2004-07-06 2007-05-09 Icosystem Corporation Verfahren und vorrichtungen zur verfeinerung von anfragen unter verwendung von genetischen algorithmen
US7613671B2 (en) 2005-02-15 2009-11-03 Fair Isaac Corporation Approach for re-using business rules
US7818350B2 (en) 2005-02-28 2010-10-19 Yahoo! Inc. System and method for creating a collaborative playlist
EP1732013A1 (de) * 2005-06-06 2006-12-13 Deutsche Thomson-Brandt Gmbh Verfahren und Vorrichtung zum Suchen von einer Dateneinheit in einer Datenbank
US7693817B2 (en) 2005-06-29 2010-04-06 Microsoft Corporation Sensing, storing, indexing, and retrieving data leveraging measures of user activity, attention, and interest
US8423323B2 (en) * 2005-09-21 2013-04-16 Icosystem Corporation System and method for aiding product design and quantifying acceptance
EP1938223A4 (de) * 2005-09-29 2009-11-11 Icosystem Corp Verfahren und vorrichtungen für interaktive suchtechniken
US8266130B2 (en) * 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
US8117196B2 (en) * 2006-01-23 2012-02-14 Chacha Search, Inc. Search tool providing optional use of human search guides
US20070174258A1 (en) * 2006-01-23 2007-07-26 Jones Scott A Targeted mobile device advertisements
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US7962466B2 (en) * 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
JP2007241451A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 情報収集支援装置
US7890485B2 (en) * 2006-04-13 2011-02-15 Tony Malandain Knowledge management tool
US20070244861A1 (en) * 2006-04-13 2007-10-18 Tony Malandain Knowledge management tool
US7792967B2 (en) 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
US8280921B2 (en) 2006-07-18 2012-10-02 Chacha Search, Inc. Anonymous search system using human searchers
US8762289B2 (en) * 2006-07-19 2014-06-24 Chacha Search, Inc Method, apparatus, and computer readable storage for training human searchers
US7873532B2 (en) * 2006-07-19 2011-01-18 Chacha Search, Inc. Method, system, and computer readable medium useful in managing a computer-based system for servicing user initiated tasks
US20080021885A1 (en) * 2006-07-24 2008-01-24 Chacha Search, Inc. System for substantially immediate payment for search related tasks
BRPI0713830A2 (pt) 2006-07-24 2017-10-17 Chacha Search Inc "método, mémoria que pode ser lida por computador para controlar um computador incluindo um banco de dados de guia, memória que pode ser lida por computador para controlar um computador incluindo um banco de dados de treinamento de vídeo e sistema"
US8266131B2 (en) * 2006-07-25 2012-09-11 Pankaj Jain Method and a system for searching information using information device
KR20090037975A (ko) 2006-08-07 2009-04-16 차차 써치 인코포레이티드 관련 집단 검색을 위한 방법, 시스템 및 컴퓨터 판독 가능 저장 장치
WO2008019369A2 (en) * 2006-08-07 2008-02-14 Chacha Search, Inc. Method, system, and computer program product for multi-level marketing
US8024308B2 (en) * 2006-08-07 2011-09-20 Chacha Search, Inc Electronic previous search results log
US20080133346A1 (en) * 2006-11-30 2008-06-05 Jyh-Herng Chow Human responses and rewards for requests at web scale
WO2008086345A2 (en) * 2007-01-08 2008-07-17 Chacha Search, Inc. Method and system for promotion of a search service
US7792816B2 (en) * 2007-02-01 2010-09-07 Icosystem Corporation Method and system for fast, generic, online and offline, multi-source text analysis and visualization
US8200663B2 (en) * 2007-04-25 2012-06-12 Chacha Search, Inc. Method and system for improvement of relevance of search results
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US20090100032A1 (en) * 2007-10-12 2009-04-16 Chacha Search, Inc. Method and system for creation of user/guide profile in a human-aided search system
US8655862B1 (en) * 2007-10-17 2014-02-18 Google Inc. System and method for query re-issue in search engines
US8972434B2 (en) * 2007-12-05 2015-03-03 Kayak Software Corporation Multi-phase search and presentation for vertical search websites
WO2009094633A1 (en) * 2008-01-25 2009-07-30 Chacha Search, Inc. Method and system for access to restricted resource(s)
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US8965881B2 (en) * 2008-08-15 2015-02-24 Athena A. Smyros Systems and methods for searching an index
US9424339B2 (en) 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US8037043B2 (en) 2008-09-09 2011-10-11 Microsoft Corporation Information retrieval system
WO2011029150A1 (en) * 2009-09-11 2011-03-17 Someones Group Intellectual Property Holdings Pty Ltd Database searching method, system and controller
US20110153423A1 (en) * 2010-06-21 2011-06-23 Jon Elvekrog Method and system for creating user based summaries for content distribution
US11379473B1 (en) 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
US11423018B1 (en) 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US20110288935A1 (en) * 2010-05-24 2011-11-24 Jon Elvekrog Optimizing targeted advertisement distribution
US8751305B2 (en) 2010-05-24 2014-06-10 140 Proof, Inc. Targeting users based on persona data
US8316021B2 (en) * 2010-06-30 2012-11-20 Emergency 24, Inc. Methods and systems for enhanced placement search engine based on user usage
EP2413253A1 (de) * 2010-07-30 2012-02-01 British Telecommunications Public Limited Company Repository-System für elektronisches Dokument
US9229956B2 (en) * 2011-01-10 2016-01-05 Microsoft Technology Licensing, Llc Image retrieval using discriminative visual features
US9449093B2 (en) * 2011-02-10 2016-09-20 Sri International System and method for improved search experience through implicit user interaction
US8898139B1 (en) 2011-06-24 2014-11-25 Google Inc. Systems and methods for dynamic visual search engine
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US11809506B1 (en) 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9922116B2 (en) * 2014-10-31 2018-03-20 Cisco Technology, Inc. Managing big data for services
US10956409B2 (en) * 2017-05-10 2021-03-23 International Business Machines Corporation Relevance model for session search

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781175A (en) * 1986-04-21 1998-07-14 Canon Kabushiki Kaisha Image search apparatus
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH03129472A (ja) * 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
US6044365A (en) * 1993-09-01 2000-03-28 Onkor, Ltd. System for indexing and retrieving graphic and sound data
US5761496A (en) 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
US5696964A (en) * 1996-04-16 1997-12-09 Nec Research Institute, Inc. Multimedia database retrieval system which maintains a posterior probability distribution that each item in the database is a target of a search
US5890152A (en) * 1996-09-09 1999-03-30 Seymour Alvin Rapaport Personal feedback browser for obtaining media files
US6247009B1 (en) * 1997-03-10 2001-06-12 Canon Kabushiki Kaisha Image processing with searching of image data
GB2323946B (en) 1997-04-04 2002-04-17 Sony Uk Ltd Database accessing method and apparatus
US6006222A (en) 1997-04-25 1999-12-21 Culliss; Gary Method for organizing information
US6078916A (en) 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6014665A (en) 1997-08-01 2000-01-11 Culliss; Gary Method for organizing information
US6182068B1 (en) 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine

Also Published As

Publication number Publication date
DE69910466D1 (de) 2003-09-25
EP0938053B1 (de) 2003-08-20
US6507841B2 (en) 2003-01-14
EP0938053A1 (de) 1999-08-25
US20020083031A1 (en) 2002-06-27

Similar Documents

Publication Publication Date Title
DE69910466T2 (de) Verfahren zum Verfeinern von Deskriptoren
DE60004687T2 (de) Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine
DE60221153T2 (de) Verfahren und vorrichtung für ähnlichkeitssuche und gruppenbildung
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE69833238T2 (de) System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE69934102T2 (de) System und verfahren zur model-mining von komplexen informationtechnologiesystemen
DE60025778T2 (de) Verfahren zum Speichern und Verwalten von Daten
DE69938339T2 (de) Ein skalierbares system zum gruppieren von grossen datenbänken
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE102005032744A1 (de) Indexextraktion von Dokumenten
WO2002001407A2 (de) Verfahren zur automatischen recherche
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
DE102007037646B4 (de) Computerspeichersystem und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
DE112020000554T5 (de) Verfahren zum zugreifen auf datensätze eines stammdatenverwaltungssystems
DE102017122363A1 (de) Einstufen von Suchergebnisdokumenten
DE10034694B4 (de) Verfahren zum Vergleichen von Suchprofilen sowie dessen Verwendung
EP1166228A2 (de) Verfahren zur nutzung von fraktalen semantischen netzen für alle arten von datenbank-anwendungen
WO2004100017A1 (de) Datenbank-abfragesystem unter verwendung eines statistischen modells der datenbank zur approximativen abfragebeantwortung
DE112019005879T5 (de) Indizes für nicht materialisierte ansichten
DE102016015536A1 (de) Organisieren von elektronisch gespeicherten Dateien unter Verwendung einer automatisch erzeugten Speicherhierarchie
DE102005032733A1 (de) Indexextraktion von Dokumenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: HEWLETT-PACKARD DEVELOPMENT CO., L.P., HOUSTON, TE