DE60116442T2

DE60116442T2 - System zur Zuordnung von Schlüsselwörtern zu Dokumenten

Info

Publication number: DE60116442T2
Application number: DE60116442T
Authority: DE
Inventors: Junichi East Windsor Kanai
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-05-11
Filing date: 2001-05-09
Publication date: 2006-08-10
Anticipated expiration: 2021-05-10
Also published as: EP1158429B1; JP2001357046A; EP1158429A2; US6625335B1; EP1158429A3; DE60116442D1

Description

Die vorliegende Erfindung betrifft allgemein Systeme für die Verarbeitung gescannter Bilder. Insbesondere betrifft die Erfindung ein System zum Verknüpfen von Schlüsselwörtern mit digitalisierten Bildern.
Mit der zunehmenden Verbreitung des elektronischen Handels hat eine entsprechende Zunahme der elektronischen Kopiertechnik stattgefunden. Digitale Bildaufbereitungsverfahren, die elektronische Bildaufbereitungsvorrichtungen wie Scanner, vernetzte digitale Kopierer und Faxmaschinen nutzen, sind mittlerweile überall erhältlich. Diese elektronischen Bildaufbereitungsvorrichtungen ermöglichen es Benutzern, Papierdokumente in Bilddateien umzuwandeln. Herkömmliche Kopiervorrichtungen umfassen jedoch allgemein nicht die Fähigkeit, den Bilddateien Schlüsselwörter zuzuordnen. Daher müssen Benutzer andere Mittel zum Zuordnen von Schlüsselwörtern verwenden, beispielsweise einen Personal-Computer mit entsprechender Software.
Das vorliegende Schlüsselwort-Zuordnungssystem bietet ein Verfahren und eine Vorrichtung zum Zuordnen von Schlüsselwörtern, wenn das digitalisierte Bild eines Dokuments erstellt wird. Das Schlüsselwort-Zuordnungssystem umfasst einen Analog/Digital-Wandler zum Generieren des digitalisierten Bilds vom eingegebenen Dokument. Ein Schlüsselwort-Eingabesystem bestimmt ein mit dem digitalisierten Bild zu assoziierendes Schlüsselwort. Eine Verknüpfungseinrichtung führt dann das Schlüsselwort mit der Bilddatei zusammen oder generiert alternativ Verknüpfungsinformationen, die das Schlüsselwort mit dem digitalisierten Bild assoziieren. Es wird eine Datenbank bereitgestellt, um das digitalisierte Bild und die Verknüpfungsinformationen zu speichern.
US 5625810 (Kurosu) offenbart eine Erfindung, die eine Datendateivorrichtung betrifft, in der eingegebenen Datendateien Attributinformationen zugeordnet werden, die ein Hinweis zum Abrufen der Datendateien sind. In diesem System werden die Attributinformationen in einer einzigen Liste geführt, die von allen Benutzern des Systems benutzt wird.
US 5821929 (Canon) offenbart eine Bildverarbeitungsvorrichtung, die dazu konfiguriert ist, eine Dokumentabbildung zu lesen und eine bestimmte Zeichenregion der gelesenen Dokumentabbildung zu erfassen. Eine ausgezogene Zeichenfolge wird dann als Index der gelesenen Dokumentabbildung eingetragen.
US 6058398 (Daewoo) offenbart ein Verfahren zum automatischen Verknüpfen von Indexdaten mit Bilddaten. Wie der Zusammenfassung zu entnehmen ist, hat ein erstes Aufzeichnungsmedium eine Indexdatenbank und darauf aufgezeichnete erste Verknüpfungsdaten und ein zweites Aufzeichnungsmedium hat eine Bilddatenbank und darauf aufgezeichnete zweite Verknüpfungsdaten. Die zweiten Verknüpfungsdaten sind ein Etikett, das mit den ersten Verknüpfungsdaten wirksam verknüpft ist. Dieser Literaturverweis richtet sich daher speziell auf das Verknüpfen von Daten.
US 5428778 (Office Express) offenbart ein Datenbanksystem zum automatischen Verbreiten von Informationen an mehrere Benutzer des Systems. Schlüsselwörter dienen zum Identifizieren von Informationspositionen, die für bestimmte Benutzer von Interesse sind, wobei sie eines oder mehrere Schlüsselwörter angegeben haben, nach denen in den durchsuchten Informationen gesucht werden soll.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine perspektivische Ansicht einer Bildaufbereitungsvorrichtung, z.B. ein Digitalkopierer, in die das Schlüsselworteingabesystem integriert ist;
2 ist eine Blockdiagrammabbildung der ersten und zweiten Ausführungsform eines Schlüsselwort-Zuordnungssystems, das die Grundsätze der vorliegenden Erfindung einschließt;
3 ist eine Blockdiagrammabbildung einer dritten Ausführungsform eines Schlüsselwort-Zuordnungssystems, das die Grundsätze der vorliegenden Erfindung einschließt;
4 ist ein Ablaufdiagramm, das zeigt, wie die Auszugstechnik für eingekreiste Regionen realisiert werden kann.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
Die Verfahren der Erfindung können in verschiedenen elektronischen Bildaufbereitungsvorrichtungen angewandt werden, einschließlich Fotokopiergeräten, Faxgeräten, Multifunktions-Peripheriegeräten (die Scannen, Faxen und Drucken unterstützen), Scannern, Dokumenten-Bildaufbereitungssystemen und Dokumentenverwaltungssystemen. Zu Veranschaulichungszwecken ist die in 1 gezeigte beispielhafte elektronische Bildaufbereitungsvorrichtung 10 ein digitales Fotokopiergerät. Das digitale Fotokopiergerät 10 kann eine geeignete Netzwerkschnittstelle zum Anschließen des Geräts an ein Computernetzwerk umfassen. Dieser Anschluss, allgemein unter 12 dargestellt, lässt zu, dass durch Verarbeitung durch das Fotokopiergerät erhaltene Dokumentabbildungen an eine entfernte Speichervorrichtung 13 übertragen werden, beispielsweise ein zu einem Computernetzwerk 15 gehörendes Festplattensystem. Mit einer solchen Konfiguration können elektronische Kopien fotokopierter Dokumente zum späteren Abrufen auf einem Computernetzwerk gespeichert werden.
Die Erfindung bietet ein bequemes, benutzerfreundliches Mittel zum Anbringen oder Assoziieren von Schlüsselwörtern mit den Dokumentabbildungen. Die Schlüsselwörter sind beispielsweise beim Ausführen anschließender Such- und Abrufabläufe nützlich. Obwohl es verschiedene Möglichkeiten gibt, die Vorrichtung und das Verfahren der Erfindung zu realisieren, bettet ein derzeit bevorzugtes Vorgehen die Schlüsselwort-Zuordnungsfunktionalität innerhalb der elektronischen Bildaufbereitungsvorrichtung selbst ein. Hier werden mehrere verschiedene Ausführungsformen beschrieben. Der Fachmann wird einsehen, dass außerdem andere Ausführungsformen möglich sind.
Die elektronische Bildaufbereitungsvorrichtung 10, eine derzeit bevorzugte Ausführungsform, umfasst eine Berührungsbildschirmanzeige 14, über die der Benutzer mit dem Schlüsselwort-Zuordnungssystem interagiert. Wie noch ausführlicher beschrieben wird, kann der Benutzer über diesen Berührungsbildschirm Benutzeridentifikationsinformationen eingeben, Schlüsselwort-Menüauswahlen treffen und neue Schlüsselwörter eingeben. Wie ausführlicher beschrieben wird, kann der Benutzer Schlüsselwörter auch unter Verwendung anderer Eingabeverfahren eingeben, einschließlich Spracherkennung, Online-Handschriftenerkennung, Electronic Ink-Abgleich. Beim Electronic Ink-Abgleich wird eine vom Benutzer gezeichnete Annotation, bei der es sich um eine beliebige von Hand gezeichnete Markierung handeln kann, abgeglichen, ohne dass die Annotation einer Erkennung unterzogen wird. So könnte selbst ein Kind dem Dokument ein von Hand gezeichnetes "Schlüsselwort" zuordnen und das System würde zulassen, dass es später durch Electronic Ink-Suche nach einer entsprechenden Annotation abgerufen wird. Die Fähigkeit zur Electronic Ink-Suche ist außerdem ideal zum Assoziieren von Kanji-Zeichen, chinesischen Schriftzeichen und anderen Arten von Symbolen, die sonst nicht vom landesspezifischen Computerbetriebssystem unterstützt werden.
Wie noch ausführlicher beschrieben wird, ermöglicht es eine weitere bevorzugte Ausführungsform dem Benutzer, Schlüsselwörter anzugeben, indem er sie auf einer zum gescannten Dokument gehörenden ersten Seite oder einem zugehörigen Deckblatt in Druckschrift schreibt oder einkreist. Das System identifiziert automatisch die vom Benutzer angegebenen Schlüsselwörter auf der gescannten Seite und verbindet oder assoziiert das Schlüsselwort mit dem Dokument, das gescannt wird.
2 zeigt eine erste Ausführungsform und eine zweite oder alternative Ausführungsform einer Vorrichtung zum Zuordnen von Schlüsselwörtern zu Dokumenten gemäß der Erfindung. 3 zeigt noch eine weitere Ausführungsform, die Schlüsselwortauszugsverfahren wie das Auszugsverfahren für eingekreiste Regionen nutzt. Die abgebildeten Ausführungsformen sind jeweils so konzipiert, dass sie eine einfache und bequeme Benutzeroberfläche bieten, um Schlüsselwörter zu Dokumentabbildungen zuzuordnen. Da die Benutzeroberfläche in der Bildaufbereitungsvorrichtung integriert ist, können Benutzer entsprechende Schlüsselwörter eingeben, wenn sie Dokumente digitalisieren, ohne dass zusätzliche Vorrichtungen benötigt werden.
In 2 sind die Komponenten und Unterprozesse für die erste Ausführungsform und außerdem die zweite oder alternative Ausführungsform abgebildet. Der grundlegende Unterschied zwischen den beiden Ausführungsformen besteht darin, dass die erste Ausführungsform eine Schlüsselwortliste verwendet und daher ein Untersystem zum Abrufen von Schlüsselwörtern nutzt. Die alternative Ausführungsform nutzt keine Schlüsselwortliste und benötigt daher das Schlüsselwortabruf-Untersystem nicht. Die übrigen Untersysteme dieser beiden Ausführungsformen sind gleich und werden daher zusammen beschrieben.
Die Grundkomponenten einer elektronischen Bildaufbereitungsvorrichtung sind unter 50 gezeigt und umfassen ein Scan-Modul oder eine Scan-Vorrichtung 100 und einen geeigneten Speicher 102 zum Speichern des gescannten Bilds. In diesen Ausführungsformen interagiert der Benutzer mit der elektronischen Bildaufbereitungsvorrichtung über einen geeigneten Benutzeridentifikationsmechanismus 104. Der Benutzeridentifikationsmechanismus kann verschiedene Formen annehmen: Magnetkarte, Passwort, Unterschriftserkennung, Spracherkennung, Chipkarte, Daumenabdruckerkennung und ähnliches. Das Benutzeridentifikationsmodul kann eine Benutzer-ID mit jedem Benutzer assoziieren. Die ID dient als Schlüssel zum Identifizieren dieses Benutzers in anschließenden Datenbankprozessen.
Wie oben angemerkt, nutzt eine erste bevorzugte Ausführungsform eine gespeicherte Schlüsselwortliste. Daher umfasst die Ausführungsform ein Schlüsselwortabruf-Untersystem 106, das auf eine Liste von Schlüsselwörtern zugreift, die im Speicher 120 gespeichert ist. Die Liste von Schlüsselwörtern kann eine Menge vordefinierter und/oder individuell angepasster Schlüsselwörter umfassen, die in einer Beziehung zu einer Benutzer-ID gespeichert sind. Beim Speicher 120 kann es sich um eine lokale Speichervorrichtung handeln, die zur elektronischen Bildaufbereitungsvorrichtung 50 gehört ist oder um ein eine entfernte Datenquelle, auf die über eine geeignete Netzwerkverbindung zugegriffen werden kann. Bei Bedarf kann es sich beim Speicher 120 um eine lokale Speichervorrichtung handeln, die Schlüsselwortdaten durch Herunterladen von einer entfernten Datenquelle im Netzwerk erhält. Alternativ kann es sich beim Speicher 120 um eine zu einer Benutzer-ID-Karte, wie beispielsweise einer Chipkarte, gehörende Speichervorrichtung handeln, die in einem geeigneten, zur elektronischen Bildaufbereitungsvorrichtung gehörenden Kartenleser installiert wird. Wenn eine Chipkarte oder eine andere tragbare Speichervorrichtung verwendet wird, kann jeder Benutzer eine Kopie seiner bzw. ihrer Schlüsselwortliste auf der ID-Karte selbst mit sich führen.
Das Schlüsselwortabruf-Untersystem 106 arbeitet zusammen mit einem Schlüsselworteingabe-Untersystem 108. Das Schlüsselworteingabe-Untersystem 108 bietet verschiedene, allgemein unter 109 gezeigte Benutzeroberflächenoptionen. Vom Benutzer eingegebene Schlüsselwörter werden zur sofortigen oder späteren Verwendung im Speicher 120 gespeichert. In 2 ist das Schlüsselwort-Abrufsystem so dargestellt, dass es mit dem Schlüsselworteingabe-Untersystem 108 in Kommunikation steht; und das Schlüsselworteingabe-Untersystem 108 wurde so dargestellt, dass es mit dem Speicher 120 in Kommunikation steht. Daher interagiert in der abgebildeten Ausführungsform das Schlüsselworteingabe-Untersystem 108 mit dem Speicher 120 und das Schlüsselwortabruf-Untersystem 106 interagiert über das Untersystem 108 mit dem Speicher 120. Es ist selbstverständlich möglich, eine alternative Ausführungsform zu konfigurieren, in der das Schlüsselwort-Abruf-Untersystem 106 direkt mit dem Speicher 120 kommuniziert.
Das Schlüsselworteingabe-Untersystem 108 der bevorzugten Ausführungsform besteht aus einem Touchpad, einem Speicher und einer CPU. Die zum Touchpad gehörende grafische Benutzeroberfläche kann als Web-Browser realisiert werden, der XML (Extensible Mark-up Language) sowie andere Auszeichnungssprachen unterstützt. Bei Bedarf kann das System so konfiguriert werden, dass wenn ein Benutzer seine bzw. ihre Benutzeridentifikation eingibt, das Layout der Benutzeroberfläche automatisch an die Präferenzen dieses Benutzers angepasst wird. Benutzerpräferenzen werden im Profildatenspeicher 122 gespeichert, einem optionalen Merkmal der bevorzugten Ausführungsformen. Außerdem ruft das Schlüsselwortabruf-Untersystem 106, wenn der Benutzer seinen bzw. seine Benutzeridentifikation eingibt, die zuvor gespeicherten Schlüsselwörter des Benutzers aus dem Speicher 120 ab und zeigt sie gemäß dem bevorzugten Layout des Benutzers auf dem Berührungsbildschirm an.
Schlüsselwörter werden im Speicher 120 zusammen mit Benutzer-IDs gespeichert, so dass die Eingabe einer Benutzer-ID die Schlüsselwörter abruft, die dem Benutzer zur Verfügung stehen, einschließlich möglicherweise vorhandenen individuell angepassten Schlüsselwörtern, die der Benutzer möglicherweise eingegeben hat. Die Schlüsselwörter werden vorzugsweise in einer logischen Datenstruktur gespeichert, damit es für den Benutzer bequemer ist, das geeignete Schlüsselwort für ein gegebenes Dokument zu wählen. In der bevorzugten Ausführungsform wird eine hierarchisch angeordnete Datenstruktur verwendet. Vorzugsweise wird eine Auszeichnungssprache verwendet, um die Schlüsselwörter mit selbstbeschreibenden Datenstrukturen zu kennzeichnen. Diesbezüglich kann XML verwendet werden. Idealerweise sollten die Schlüsselwörter so angeordnet sein, dass der Benutzer schnell eine geeignete Liste identifizieren und das Schlüsselwort oder die Schlüsselwörter, die am besten auf das gescannte Bild zutreffen, wählen kann.
Zur Veranschaulichung könnte die folgende hierarchisch angeordnete Datenstruktur im Zusammenhang mit der Benutzer-ID "Sekretärin A" verwendet werden:
Man nehme im obigen Beispiel an, dass Sekretärin A ihre Identifikation "Sekretärin A" über ein geeignetes Mittel, beispielsweise durch Verwendung einer in einen Kartenleser an der Bildaufbereitungsvorrichtung eingeführte Magnetkarte, eingibt. Das Schlüsselwortabruf-Untersystem 106 und das zugehörige Schlüsselworteingabesystem 108 rufen die im Speicher 120 gespeicherten Informationen, die mit dieser Benutzer-ID assoziiert sind, ab. Der gesamte oder ein Teil des Inhalts des Speichers 120 würde dann auf dem Berührungsbildschirm oder einem anderen geeigneten Anzeigeschirm angezeigt.
Obwohl die derzeitig bevorzugte Ausführungsform einen preisgünstigen Berührungsbildschirm zum Anzeigen der Schlüsselwortauswahl und zum Entgegennehmen der Benutzereingaben nutzt, könnte ein größeres System einen CRT- oder flachen LCD-Anzeigebildschirm nutzen. Ein solcher Anzeigebildschirm kann ein zugehöriges Computeruntersystem zum Ausführen einer Client-Anwendung oder eines Browsers zur Anzeige der im Speicher 120 gespeicherten Informationen einschließen. In einer solchen Konfiguration würden der Speicher 120 und die zugehörigen Untermodule 106 und 108 als Informationsserver dienen, der Informationen zum Anzeigen für den Benutzer an die Client-Anwendung des Browsers liefert.
Je nach Menge der anzuzeigenden Informationen werden möglicherweise nur die Datenelemente der obersten Ebene angezeigt: "Spesenaufstellung" und "Bestellung". Wenn eine größere Anzeige verfügbar ist, können alternativ auch Wahlmöglichkeiten unterer Ebenen angezeigt werden: "Zweck" "Angefordert von (oder Projekt)". Die Benutzeroberfläche kann zusätzlich oder als Ersatz für den Berührungsbildschirm einen geeigneten Auswahlmechanismus einschließen. Bei einem solchen Auswahlmechanismus kann es sich um eine Zeigevorrichtung (Trackball, Touchpad, Maus, Joystick) oder Tastatur handeln, um Schlüsselwörter aus der angezeigten Liste zu wählen und Datenstrukturen unterer Ebenen basierend auf einem angezeigten Datenelement zu wählen.
In manchen Anwendungen kann es möglich sein, den Benutzeridentifikationsprozess wegzulassen. Daher ist das Benutzeridentifikations-Untersystem 104 in diesen Anwendungen optional. Statt dass der Benutzer sich identifizieren muss, würde eine alternative Ausführungsform zulassen, dass der Benutzer einfach direkt aus einer geeigneten Liste von Schlüsselwörtern wählt. Dazu würde eine Auswahl von Schlüsselwörtern, aus denen der Benutzer wählen kann, in hierarchischer Weise angezeigt. Alternativ kann der Benutzer das Schlüsselwort unter Verwendung des Schlüsselworteingabe-Untersystems 108 direkt eingeben.
Wie zuvor angemerkt, hat das Schlüsselworteingabe-Untersystem 108 verschiedene Benutzeroberflächenoptionen. Diese umfassen numerische Tasten 110 und Buchstabentasten 112, die unter Verwendung einer physikalischen Tastatur oder einer auf einem Computer-Berührungsbildschirm angezeigten virtuellen Tastatur bereitgestellt werden können. Ein Online-Handschriftenerkennungsmodul 114 lässt den Benutzer durch von Hand geschriebene Nachrichten mit dem System interagieren und ein Spracherkennungssystem 116 lässt den Benutzer unter Verwendung von Sprache mit dem System interagieren. Als Alternative zur Online-Handschriftenerkennung, kann ein Electronic Ink-Abgleichsystem 118 verwendet werden. Das Electronic Ink-Abgleichsystem kann gemäß der Beschreibung in U.S. Patent 5,832,474, Lopresti, et. al. realisiert werden, um Informationen durch Durchführen einer Suche nach teilweisen Übereinstimmungen von vom Benutzer gezeichneten Annotationen abzurufen.
Zum Schlüsselworteingabemodul 108 gehört das Schlüsselwort-Zusammenführungs-/Verknüpfungsmodul 124. Das Modul 124 ist für das Zusammenführen bzw. Verknüpfen der vom Benutzer gewählten Schlüsselwörter mit den im Speicher 102 gespeicherten Bilddaten zuständig. Die Schlüsselwörter können mit der Datenstruktur der Bilddatendatei zusammengeführt werden, beispielsweise mit dem Kennzeichen einer TIFF-Datei. Alternativ können die Schlüsselwörter unter Verwendung geeigneter Datenbanksoftware mit der Bilddatendatei verknüpft werden oder als Dateiname mit der Datei verknüpft werden (z.B. PO100.tif, generiert aus dem Schlüsselwort "Purchase Order 100") oder sie können verwendet werden, um ein zum Speichern eines Bilds verwendetes Verzeichnis anzugeben, beispielsweise, um ein mit "Projekt-A" zusammenhängendes Bild im Verzeichnis mit dem Namen "Projekt-A" zu speichern. Die resultierenden zusammengeführten/verknüpften Bilddaten und Schlüsselwörter werden dann an eine Speichervorrichtung 126 geliefert, bei der es sich entweder um eine lokal angebrachte Vorrichtung oder eine entfernte Speichervorrichtung, auf die über eine geeignete Netzwerkverbindung zugegriffen wird, handeln kann.
Die zweite alternative Ausführungsform der Erfindung verzichtet auf die Schlüsselwortliste. Daher wird das Untersystem 106 nicht benötigt. Das Schlüsselworteingabe-Untersystem 108 wird jedoch weiterhin benutzt. Der Benutzer ruft einen der Schlüsselwort-Eingabemechanismen 109 auf, um Schlüsselwörter direkt in das Modul 108 einzugeben. Das Modul 108 wiederum liefert die vom Benutzer ausgewählten Schlüsselwörter an das Zusammenführungs- und Verknüpfungsmodul 124. Bei Bedarf können die einen hohen Rechenaufwand beanspruchenden Komponenten wie die Handschriften- und Spracherkennungskomponenten und/oder die Kreisauszugs- und/oder Electronic Ink-Verarbeitungskomponenten auf einem entfernten Server realisiert werden, beispielsweise dem zum Bildspeichersystem gehörenden Server.
Eine dritte Ausführungsform der Erfindung ist in 3 dargestellt. Diese Ausführungsform nutzt ein Schlüsselwortauszugsverfahren, mit dem die Notwendigkeit für die Tastatur, Handschriften-, Sprach- und Electronic Ink-Eingabemechanismen eliminiert werden kann. Statt dessen verwendet die Ausführungsform das Scan-Untersystem 100 und dessen zugehörigen Speicher, um die gewünschten Schlüsselwörter einzugeben. Der Benutzer schreibt von Hand Schlüsselwörter auf die erste Seite eines Dokuments oder auf ein Deckblatt und diese handgeschriebenen Schlüsselwörter werden gescannt und als Bilder im Speicher 102 gespeichert.
Das Schlüsselwortauszugsmodul 134 und das Schlüsselworterkennungsmodul 136 analysieren dann die vom Benutzer handgeschriebenen Schlüsselwörter, um sie auszuziehen und in geeigneten alphanumerischen Text umzuwandeln, der dann durch das Modul 124 mit den restlichen Bilddaten zusammengeführt oder verknüpft werden kann.
Als Alternative zur handschriftlichen Eingabe von Schlüsselwörtern kann ein Auszugsverfahren für eingekreiste Regionen angewandt werden. Die Einzelheiten des derzeit bevorzugten Auszugsverfahren sind nachfolgend beschrieben. Statt die Schlüsselwörter zu schreiben, zeichnet der Benutzer einfach Kreise um Schlüsselwörter, die im Text des zu scannenden Dokuments bereits vorkommen. Das Auszugsverfahren für eingekreiste Regionen identifiziert die vom Benutzer gezeichneten Kreise und zieht dann die Schlüsselwörter aus diesen identifizierten Kreisen aus. Vorzugsweise werden die ausgezogenen Schlüsselwörter dann erkannt.
In manchen Fällen kann es nützlich sein, eine Form von Benutzeridentifikation an den zu speichernden Bildern anzubringen. Das Benutzeridentifikationsmodul 104 liefert diese Informationen, wie abgebildet, direkt an das Zusammenführungs-/Verknüpfungsmodul 124. Das Benutzeridentifikationsmodul 104 kann auf eine der oben in Zusammenhang mit 2 beschriebenen Arten realisiert werden. In allen Ausführungsformen kann es außerdem von Vorteil sein, Angaben zu Datum und Uhrzeit zu den gespeicherten Bildern hinzuzufügen. Solche Informationen können vom Benutzeridentifikationsmodul 104 eingegeben werden. Selbstverständlich können die Angaben zu Datum und Uhrzeit auch unter Verwendung anderer Module hinzugefügt werden. Diesbezüglich könnte beispielsweise das Zusammenführungs- und Verknüpfungsmodul 124 mit der Datums- und Zeitstempelfähigkeit ausgestattet werden.
Ausziehen eingekreister Regionen
Das derzeit bevorzugte Verfahren zum Ausziehen von vom Benutzer eingekreisten Regionen verwendet ein Konturanalyseverfahren. Das Verfahren basiert auf dem Identifizieren der Kontur eines Kandidatenobjekts. Das Kandidatenobjekt kann vom Benutzer gezeichnete Kreise, maschinell gedruckte Rahmen oder anderes Nicht-Text-Material auf der Seite umfassen. Durch Analyse der Kontur mit einem Merkmalauszugsmodul zieht der Algorithmus den vom Benutzer gezeichneten Kreis aus. Die Kontur wird durch eine Folge von Punkten mit verschiedenen Krümmungswerten dargestellt. So kann durch ein Nachverarbeitungs-Analyseverfahren ein vom Benutzer gezeichneter Kreis von einem maschinell gedruckten Rahmen unterschieden werden.
In 4 besteht der erste Schritt (Schritt 250) darin, die zusammenhängenden Komponenten innerhalb einer gegebenen Seite zu finden. In diesem Schritt wird das Bild zeilenweise gescannt und jeder Pixel wird gekennzeichnet, wenn er mit seinen benachbarten Pixeln zusammenhängt. Nach dem Kennzeichnen der Pixel hinsichtlich des Zusammenhängens wird für jede zusammenhängende Komponente eine Bounding Box berechnet. Diese Bounding Boxes werden zum Ausziehen des Kandidatengebiets im Bild verwendet.
Dann (in Schritt 252) werden Text repräsentierende zusammenhängende Komponenten eliminiert.
Dazu wird die Größe der Bounding Box analysiert und es werden diejenigen zusammenhängenden Komponenten eliminiert, deren Bounding Boxes unter einer vorbestimmte Größe sind.
Als nächstes werden in Schritt 254 Halbtonbilder eliminiert. Halbtonbilder bilden große zusammenhängende Komponenten. Der Algorithmus erkennt Halbtonbilder, indem er das Verhältnis schwarzer zu weißer Pixel in der zur betreffenden zusammenhängenden Komponente gehörenden Bounding Box abschätzt. Halbtonbilder haben tendenziell mehr schwarze Pixel als Text enthaltende Gebiete.
Um den Algorithmus zu beschleunigen, kann bei 256 ein optionaler Vorverarbeitungsschritt durchgeführt werden. Das Konturanalyseverfahren generiert möglicherweise mehr Merkmalpunkte als tatsächlich benötigt werden, wenn irrelevante Zeichen die betreffende Kontur berühren. Dies kann beispielsweise dann vorkommen, wenn der Benutzer einen Kreis zeichnet, der zufällig andere Zeichen auf der Seite schneidet.
Der optionale Vorverarbeitungsschritt eliminiert diese berührenden Zeichen, durch Ausführen eines morphologischen Ablaufs, um die Form der Kontur in der Region, in der sich der vom Benutzer gezeichnete Kreis und das irrelevante Zeichen schneiden, zu vereinfachen.
Als nächstes wird der vom Benutzer gezeichnete Kreis identifiziert, indem verschiedene Kandidatengebiete auf der Seite untersucht werden. Im ersten Schritt in diesem Verfahren, dargestellt unter 258, wird die Kontur des Kandidatenobjekts generiert. Dazu wird der Umriss des Objekts nachgezogen. Die Kontur wird im Computerspeicher als geordnete Menge von Punkten dargestellt (Koordinaten der Grenzpixel). Das Nachziehschema scannt zuerst nach dem Anfangspunkt (einem Grenzpixel, der noch nicht nachgezogen wurde). Dann beginnt die Nachziehspur im Uhrzeigersinn entlang dem konvexen Umriss des Objekts. Wenn die Nachziehspur zum Anfangspunkt zurückkehrt oder an einen Punkt gelangt, an dem um den aktuellen Pixel herum keine weiteren schwarzen Pixel gefunden werden können, hört das Nachziehen auf und der Scanprozess zum Auffinden des nächsten Anfangspunkts fährt fort.
Als nächstes werden die im Schritt 258 erhaltenen Konturen analysiert, indem zu jeder Kontur gehörende Merkmalpunkte berechnet werden (Schritt 260). Bei den in Schritt 258 erhaltenen Konturen kann es sich aufgrund von Rauschen im Bild um geschlossene Kurven oder um unterbrochene Kurven handeln. Merkmalpunkte sind als Punkte mit starker Krümmung definiert, einschließlich Schnittpunkte von Kreisen mit anderen Objekten. Die Krümmung kann mittels Resampling-Verfahren berechnet werden, dies ist jedoch möglicherweise nicht zuverlässig, wenn während des Digitalisierungsprozesses Rauschen generiert wird. Durch Beobachtung können die Merkmalpunkte ungefähr entweder an den lokalen Maxima oder lokalen Minima in x- und y-Richtung erfasst werden, obwohl nicht alle Maxima und Minima Merkmalpunkte sind. In der bevorzugten Realisierung werden der Anfangspunkt und der Endpunkt jeder Kontur als Merkmalpunkte behandelt.
Nachdem die Merkmalpunkte identifiziert wurden, wird die eingekreiste Region unter Verwendung der Merkmalpunkte rekonstruiert. Dies ist in Schritt 262 dargestellt. Im Wesentlichen wird jede in Schritt 258 generierte Kontur an den Merkmalpunkten in Segmente unterteilt. Diese Segmente werden untersucht und wieder zusammengefügt, so dass zu verschiedenen Objekten gehörende Segmente getrennt und zum selben Objekt gehörende zusammengefügt werden.
Das Hauptkriterium zum wieder Zusammenfügen der Kontursegmente besteht darin, beim Herstellen des Übergangs zwischen benachbarten Segmenten die Glattheit zu prüfen. Für jedes Kontursegment wird jeweils ein kleines Gebiet um seinen Anfangs- und Endpunkt untersucht. Die Punkte an den beide Enden werden in Linien eingepasst, so dass die Steigung (Eintritts- und Austrittswinkel aus dem Segment) abgeschätzt werden kann. Diese geschätzten Winkel werden verwendet, um abzuschätzen, ob sich zwei Liniensegmente so einander nähern, dass sie als zur selben Kontur gehörend zusammengefügt werden sollten oder ob sie sich so überkreuzen, dass sie zu nicht verwandten Konturen gehören.
Unter Verwendung der in Schritt 262 rekonstruierten Kreise werden die vom Benutzer gezeichneten Kreise in Schritt 264 unter Verwendung einer Reihe von Tests identifiziert. Der erste Test basiert auf der Größe der Kontur sowie der Fläche, die die Kontur abdeckt. Wenn die Länge der Kontur einen vorbestimmten Schwellenwert übersteigt und die Bounding Box der Kontur eine vorbestimmte Fläche abdeckt, betrachtet der Algorithmus die Kontur als vom Benutzer gezeichneten Kreis.
Um zwischen vom Benutzer gezeichneten Kreisen und maschinell gedruckten Rahmen, beispielsweise rechteckigen Rahmen, maschinell gedruckten Kreisen oder Tabellen zu unterscheiden, wird jedoch die Glattheit der zusammenhängenden Kontur untersucht. Eine Möglichkeit zum Messen der Glattheit besteht darin, die durchschnittliche Krümmung entlang der zusammenhängenden Kontur zu berechnen. Wenn die Glattheit einen vorbestimmten Schwellenwert übersteigt, wird die Kontur als maschinell gedruckt betrachtet.
Da der Algorithmus eingekreiste Regionen aus den berechneten Merkmalpunkten rekonstruiert, kann er vom Benutzer gezeichnete Kreise selbst dann identifizieren, wenn sie kleine Lücken oder Unterbrechungen beinhalten. Bei Bedarf können die vom Benutzer gezeichneten Kreiskandidaten weiter evaluiert werden, um festzustellen, ob ggf. vorhandene Lücken groß genug sind, um die Zurückweisung als vom Benutzer gezeichnete Kreise zu rechtfertigen. Bei der Analyse (dargestellt in Schritt 266) wird der Abstand zwischen Anfangs- und Endpunkt einer Kontur abgeschätzt. Es gibt verschiedene Möglichkeit zum Abschätzen des Abstands.
Ein Verfahren zum Abschätzen des Abstands besteht darin, festzustellen, ob ein Endpunkt innerhalb eines vorbestimmten radialen Abstands vom anderen Endpunkt liegt. Wir bezeichnen dies als eine Kreis-Abstandsfunktion. Ein weiteres Verfahren besteht darin, eine quadratische Bounding Box vorbestimmter Größe um einen Endpunkt zu definieren und festzustellen, ob der andere Endpunkt innerhalb dieser Bounding Box liegt. Wir bezeichnen dies als die Quadrat-Abstandsfunktion. Ein drittes Verfahren besteht darin, eine quadratische Bounding Box vorbestimmter Größe um einen Endpunkt zu definieren und dann die Bounding Box um diesen Endpunkt zu drehen, um festzustellen, ob bei irgend einem Drehwinkel der zweite Endpunkt in die Bounding Box fällt. Dies geschieht, wenn überhaupt, wenn eine Ecke der Bounding Box auf einer Linie zwischen den beiden Endpunkten liegt. Wir nennen dies die Manhattan-Abstandsfunktion.
Falls die Kontur einen der obigen Tests nicht besteht, wird sie statt als vom Benutzer gezeichneter Kreis als offener Bogen betrachtet. Nachdem der vom Benutzer gezeichnete Kreis, wie oben beschrieben, identifiziert wurde, wird die Bounding Box um seine Kontur dazu verwendet, die Region einzugrenzen, die für die anschließende optische Zeichenerkennungsanalyse ausgezogen wird. Dies ist in Schritt 268 dargestellt. Das Bild in der Bounding Box der Kontur wird ausgezogen und das ausgezogene Bild wird einer optischen Zeichenerkennung unterzogen, um das Schlüsselwort bzw. die Schlüsselwörter für die Datenbanksuche zu bestimmen. Wenn kein guter Kreis identifiziert wird, kann das System dazu konfiguriert werden, zu versuchen, eine Faxnummer aus einem zuvor als offener Bogen oder schlecht gezeichneter Kreis zurückgewiesenen "Kreis" auszuziehen. Die ausgezogene Nummer wird dem Benutzer, wie oben beschrieben, zur Bestätigung bzw. Korrektur vorgelegt.
Betrieb
Schlüsselwörter können vom Benutzer unter verschiedenen Umständen eingegeben werden. Schlüsselwörter können als Teil einer Aufgabenspezifikation eingegeben werden, beispielsweise wie beim Angeben der Anzahl von Kopien, die ein Kopierer machen soll, bevor das gescannte Dokument digitalisiert wird. Wenn die elektronische Bildaufbereitungsvorrichtung den Multitasking-Betrieb unterstützt, kann der Benutzer Schlüsselwörter eingeben, während die Vorrichtung das Dokument scannt. Der Scan-Mechanismus 100 hat möglicherweise eine automatische Seitenzufuhreinrichtung und der Benutzer kann Schlüsselwörter eingeben, während der Zufuhrmechanismus in Betrieb ist. Schlüsselwörter können außerdem als Teil einer Aufgabenspezifikation eingegeben werden, beispielsweise der Identifikation der von der Bildaufbereitungsvorrichtung auszuführenden Bildverarbeitung und/oder Bildlenkung. Diesbezüglich kann die Bildaufbereitungsvorrichtung zusätzliche Prozesse mit dem gescannten Bild durchführen, nachdem es in den Speicher 102 geladen wurde. Außerdem kann die Bildaufbereitungsvorrichtung eine zugehörige Telekommunikationskomponente (nicht abgebildet) haben, um das Bild zu faxen oder es über ein Computernetzwerk an einen entfernten Ort zu schicken. Darüber hinaus kann die Bildaufbereitungsvorrichtung einen zugehörigen Druckmechanismus haben, um zuzulassen, dass Ausdrucke des Bilds im Speicher 102 gedruckt werden können.
Wie zuvor angemerkt, kann das System benutzt werden, ohne dass zuerst die Benutzeridentifikation bereitgestellt wird. Dies erfolgt durch Wechseln in einen Schlüsselwortmodus, der durch Wählen einer geeigneten Touchpad-"Taste" auf dem Anzeigebildschirm gewählt werden kann. Wenn der Benutzer den Schlüsselwortmodus wählt, wird eine vorbestimmte Menge von Schlüsselwörtern auf dem Berührungsbildschirm angezeigt. Die Schlüsselwörter können hierarchisch organisiert sein. Der Benutzer wählt einfach geeignete Schlüsselwörter (es können eines oder mehrere Schlüsselwörter gewählt werden). Wenn als Teil des Schlüsselworts eine Zahl eingegeben werden muss, beispielweise eine Auftragsnummer, wird die numerische Tastatur 110 verwendet. Alle gewählten Schlüsselwörter werden im Speicher 120 gespeichert, so dass die selben Schlüsselwörter für eine Folge ähnlicher Dokumente wiederverwendet werden können. Gespeicherte Schlüsselwörter können vom Benutzer abgerufen und geändert werden. So kann ein Schlüsselwort, das eine zugehörige Auftragsnummer enthält, geändert werden, indem ein zuvor gespeichertes Schlüsselwort mit Zahlen abgerufen wird und dann die Zahlen mit der numerischen Tastatur bearbeitet werden.
Wenn Schlüsselwörter nicht in der Schlüsselwortliste gefunden werden, kann der Benutzer sie hinzufügen. Die derzeit bevorzugte Ausführungsform nutzt einen weiteren Betriebsmodus, der hierin als "anderer Modus" bezeichnet wird. Wenn der Benutzer den anderen Modus wählt, können zur Eingabe des hinzuzufügenden Schlüsselworts die numerische Tastatur 110, die Buchstabentastatur 112, das Handschriftenerkennungsmodul 114, das Spracherkennungsmodul 116 und das Electronic Ink-Modul 118 verwendet werden.
Es ist zu beachten, dass bei Verwendung des Electronic Ink-Moduls 118 die vom Benutzer eingegebene Annotation nicht unbedingt ein Schlüsselwort im herkömmlichen Sinn darstellt. Statt dessen kann es sich bei der vom Benutzer gezeichneten Annotation um eine beliebige Kombination von vom Benutzer gezeichneten Strichen handeln, die der Benutzer als ein Schlüsselwort speichern möchte, das mit den gescannten Bilddaten verknüpft werden soll. Beispielsweise könnte der Benutzer ein einfaches Bild zeichnen und dieses Bild würde dann als Schlüsselwort zum späteren Abrufen des Dokuments dienen. Der Electronic Ink-Abgleich wäre daher also nützlich, wenn Zeichen in einer Sprache eingegeben werden, die vom landespezifischen System nicht unterstützt wird. Beispielsweise könnte der Benutzer Kanji-Zeichen oder Chinesische Schriftzeichen zeichnen, um Wörter in einer asiatischen Sprache wie Japanisch oder Chinesisch darzustellen, ohne dass das System diese Zeichen erkennen können muss.
Wenn der Benutzer neue Schlüsselwörter in das System einträgt, kann der Benutzer optional außerdem die logische Bedeutung dieser Schlüsselwörter speichern. So könnte der Benutzer angeben, dass ein gewisses Verkäuferschlüsselwort mit dem Auftragsschlüsselwort assoziiert ist. Das Schlüsselwort und seine logische Bedeutung könnten daher beispielsweise unter Verwendung von XML gespeichert werden.
Aus dem Obenstehenden ist zu sehen, dass die Erfindung ein System zum herkömmlichen Zuordnen eines Schlüsselworts zu einem digitalisierten Bild bereitstellt. Der Benutzer gibt einfach die Schlüsselwortinformationen an der Digitalisierungsausrüstung ein. Das System formatiert die Schlüsselwortinformationen und ordnet die formatierten Informationen dem digitalisierten Bild zu. Da es Benutzern erlaubt ist, geeignete Schlüsselwörter Dokumenten zuzuordnen, wenn sie sie digitalisieren, müssen sie sich nicht mit den zusätzlichen Schritten abgeben, die von herkömmlichen Software- oder Hardware-Dokumentenverwaltungssystemen benötigt werden.
Obwohl die Erfindung in ihrer derzeit bevorzugten Ausführungsform beschrieben wurde, um für ein besseres Verständnis der Erfindung zu sorgen und ihre Grundsätze zu beschreiben, ist zu beachten, dass die Erfindung auf verschiedene Weisen realisiert werden kann, ohne vom Umfang der Erfindung, wie er in den angehängten Patentansprüchen dargelegt ist, abzuweichen.

Claims

System zum Zuordnen eines ausgewählten Schlüsselworts zu einem digitalisierten Bild, das Folgendes umfasst: einen Analog/Digital-Wandler (100) zum Generieren des digitalisierten Bilds von einem eingegebenen Dokument; ein Schlüsselworteingabesystem (108), das dazu angepasst ist, eine Benutzerkennung und mindestens ein von einem Benutzer bereitgestelltes Schlüsselwort zu empfangen und das wirksam ist, verknüpfende Informationen zu generieren (124), die das Schlüsselwort mit dem digitalisierten Bild assoziieren; eine Datenbank (126) zum Speichern des digitalisierten Bilds und der verknüpfenden Informationen; einen Schlüsselwortmanager, der in Datenkommunikation mit dem Schlüsselworteingabesystem steht und der wirksam ist, das Schlüsselwort in einer Schlüsselwortliste zu speichern; ein Schlüsselwortabruf-Untersystem (106), das in Datenkommunikation mit dem Schlüsselworteingabesystem (108) steht und wirksam ist, die Schlüsselwortliste abzurufen; und eine mit dem Schlüsselworteingabesystem assoziierte Benutzeroberfläche; wobei das System zum Zuordnen dadurch gekennzeichnet ist, dass: die Schlüsselwortliste so mit der Benutzerkennung für den Benutzer assoziiert ist, dass für jeden unterschiedlichen Benutzer eine Schlüsselwortliste geführt (120) wird; das Schlüsselwortabruf-Untersystem (106) wirksam ist, die mit dem Benutzer assoziierte Schlüsselwortliste bei Erhalt der Benutzerkennung für den Benutzer abzurufen, so dass das Schlüsselworteingabesystem es dem Benutzer ermöglicht, ein Schlüsselwort aus der Schlüsselwortliste auszuwählen; und wobei: wenn der Benutzer die Benutzerkennung eingibt, die Benutzeroberfläche gemäß in einem Profildatenspeicher (122) gespeicherten Präferenzen individuell angepasst wird.
System nach Anspruch 1, wobei das Schlüsselwort mit dem digitalisierten Bild in der Datenbank gespeichert wird.
System nach Anspruch 2, wobei das Schlüsselwort in einem Kennzeichen einer das digitalisierte Bild enthaltenden TIFF-Datei enthalten ist.
System nach Anspruch 1, wobei die Schlüsselwortliste hierarchisch organisiert ist.
System nach Anspruch 1, wobei die Schlüsselwortliste in einem XML-kompatiblen Format organisiert ist.
System nach Anspruch 1, wobei das Schlüsselworteingabesystem eine Schlüsselworteingabevorrichtung zum Eingeben des Schlüsselworts umfasst.
System nach Anspruch 6, wobei die Schlüsselworteingabevorrichtung aus folgender Gruppe ausgewählt wird: eine echte Tastatur und eine virtuelle Tastatur.
System nach Anspruch 6, wobei das Schlüsselworteingabesystem eine von einem Benutzer bereitgestellte Benutzerkennung umfasst, die mit einer Benutzerschlüsselwortliste assoziiert ist.
System nach Anspruch 8, wobei die Benutzerkennung aus folgender Gruppe ausgewählt wird: eine Benutzer-ID, ein Passwort, Unterschriftenerkennung, eine Magnetkarte, ein Zeitstempel und eine Maschinen-ID.
System nach Anspruch 1, das weiter einen Detektor für eingekreiste Regionen umfasst, um ein auf dem Dokument geschriebenes eingekreistes Wort zu erfassen, so dass das eingekreiste Wort als das Schlüsselwort verwendet wird.
System nach Anspruch 1, das weiter einen Detektor für eingekreiste Regionen umfasst, um ein auf dem Dokument geschriebenes eingekreistes Wort zu erfassen, so dass das eingekreiste Wort erkannt und als das Schlüsselwort verwendet wird.