-
Die
vorliegende Erfindung betrifft allgemein Systeme für die Verarbeitung
gescannter Bilder. Insbesondere betrifft die Erfindung ein System
zum Verknüpfen
von Schlüsselwörtern mit
digitalisierten Bildern.
-
Mit
der zunehmenden Verbreitung des elektronischen Handels hat eine
entsprechende Zunahme der elektronischen Kopiertechnik stattgefunden.
Digitale Bildaufbereitungsverfahren, die elektronische Bildaufbereitungsvorrichtungen
wie Scanner, vernetzte digitale Kopierer und Faxmaschinen nutzen,
sind mittlerweile überall
erhältlich.
Diese elektronischen Bildaufbereitungsvorrichtungen ermöglichen
es Benutzern, Papierdokumente in Bilddateien umzuwandeln. Herkömmliche
Kopiervorrichtungen umfassen jedoch allgemein nicht die Fähigkeit,
den Bilddateien Schlüsselwörter zuzuordnen.
Daher müssen
Benutzer andere Mittel zum Zuordnen von Schlüsselwörtern verwenden, beispielsweise
einen Personal-Computer mit entsprechender Software.
-
Das
vorliegende Schlüsselwort-Zuordnungssystem
bietet ein Verfahren und eine Vorrichtung zum Zuordnen von Schlüsselwörtern, wenn
das digitalisierte Bild eines Dokuments erstellt wird. Das Schlüsselwort-Zuordnungssystem
umfasst einen Analog/Digital-Wandler zum Generieren des digitalisierten
Bilds vom eingegebenen Dokument. Ein Schlüsselwort-Eingabesystem bestimmt
ein mit dem digitalisierten Bild zu assoziierendes Schlüsselwort.
Eine Verknüpfungseinrichtung
führt dann
das Schlüsselwort
mit der Bilddatei zusammen oder generiert alternativ Verknüpfungsinformationen,
die das Schlüsselwort
mit dem digitalisierten Bild assoziieren. Es wird eine Datenbank
bereitgestellt, um das digitalisierte Bild und die Verknüpfungsinformationen zu
speichern.
-
US 5625810 (Kurosu) offenbart
eine Erfindung, die eine Datendateivorrichtung betrifft, in der
eingegebenen Datendateien Attributinformationen zugeordnet werden,
die ein Hinweis zum Abrufen der Datendateien sind. In diesem System
werden die Attributinformationen in einer einzigen Liste geführt, die
von allen Benutzern des Systems benutzt wird.
-
US 5821929 (Canon) offenbart
eine Bildverarbeitungsvorrichtung, die dazu konfiguriert ist, eine
Dokumentabbildung zu lesen und eine bestimmte Zeichenregion der
gelesenen Dokumentabbildung zu erfassen. Eine ausgezogene Zeichenfolge
wird dann als Index der gelesenen Dokumentabbildung eingetragen.
-
US 6058398 (Daewoo) offenbart
ein Verfahren zum automatischen Verknüpfen von Indexdaten mit Bilddaten.
Wie der Zusammenfassung zu entnehmen ist, hat ein erstes Aufzeichnungsmedium
eine Indexdatenbank und darauf aufgezeichnete erste Verknüpfungsdaten
und ein zweites Aufzeichnungsmedium hat eine Bilddatenbank und darauf
aufgezeichnete zweite Verknüpfungsdaten.
Die zweiten Verknüpfungsdaten
sind ein Etikett, das mit den ersten Verknüpfungsdaten wirksam verknüpft ist.
Dieser Literaturverweis richtet sich daher speziell auf das Verknüpfen von
Daten.
-
US 5428778 (Office Express)
offenbart ein Datenbanksystem zum automatischen Verbreiten von Informationen
an mehrere Benutzer des Systems. Schlüsselwörter dienen zum Identifizieren
von Informationspositionen, die für bestimmte Benutzer von Interesse
sind, wobei sie eines oder mehrere Schlüsselwörter angegeben haben, nach
denen in den durchsuchten Informationen gesucht werden soll.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
eine perspektivische Ansicht einer Bildaufbereitungsvorrichtung,
z.B. ein Digitalkopierer, in die das Schlüsselworteingabesystem integriert
ist;
-
2 ist
eine Blockdiagrammabbildung der ersten und zweiten Ausführungsform
eines Schlüsselwort-Zuordnungssystems,
das die Grundsätze
der vorliegenden Erfindung einschließt;
-
3 ist
eine Blockdiagrammabbildung einer dritten Ausführungsform eines Schlüsselwort-Zuordnungssystems,
das die Grundsätze
der vorliegenden Erfindung einschließt;
-
4 ist
ein Ablaufdiagramm, das zeigt, wie die Auszugstechnik für eingekreiste
Regionen realisiert werden kann.
-
AUSFÜHRLICHE
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
-
Die
Verfahren der Erfindung können
in verschiedenen elektronischen Bildaufbereitungsvorrichtungen angewandt
werden, einschließlich
Fotokopiergeräten,
Faxgeräten,
Multifunktions-Peripheriegeräten
(die Scannen, Faxen und Drucken unterstützen), Scannern, Dokumenten-Bildaufbereitungssystemen
und Dokumentenverwaltungssystemen. Zu Veranschaulichungszwecken
ist die in 1 gezeigte beispielhafte elektronische
Bildaufbereitungsvorrichtung 10 ein digitales Fotokopiergerät. Das digitale
Fotokopiergerät 10 kann eine
geeignete Netzwerkschnittstelle zum Anschließen des Geräts an ein Computernetzwerk
umfassen. Dieser Anschluss, allgemein unter 12 dargestellt,
lässt zu,
dass durch Verarbeitung durch das Fotokopiergerät erhaltene Dokumentabbildungen
an eine entfernte Speichervorrichtung 13 übertragen
werden, beispielsweise ein zu einem Computernetzwerk 15 gehörendes Festplattensystem.
Mit einer solchen Konfiguration können elektronische Kopien fotokopierter
Dokumente zum späteren
Abrufen auf einem Computernetzwerk gespeichert werden.
-
Die
Erfindung bietet ein bequemes, benutzerfreundliches Mittel zum Anbringen
oder Assoziieren von Schlüsselwörtern mit
den Dokumentabbildungen. Die Schlüsselwörter sind beispielsweise beim
Ausführen
anschließender
Such- und Abrufabläufe nützlich.
Obwohl es verschiedene Möglichkeiten
gibt, die Vorrichtung und das Verfahren der Erfindung zu realisieren,
bettet ein derzeit bevorzugtes Vorgehen die Schlüsselwort-Zuordnungsfunktionalität innerhalb
der elektronischen Bildaufbereitungsvorrichtung selbst ein. Hier
werden mehrere verschiedene Ausführungsformen
beschrieben. Der Fachmann wird einsehen, dass außerdem andere Ausführungsformen
möglich
sind.
-
Die
elektronische Bildaufbereitungsvorrichtung 10, eine derzeit
bevorzugte Ausführungsform,
umfasst eine Berührungsbildschirmanzeige 14, über die
der Benutzer mit dem Schlüsselwort-Zuordnungssystem
interagiert. Wie noch ausführlicher
beschrieben wird, kann der Benutzer über diesen Berührungsbildschirm
Benutzeridentifikationsinformationen eingeben, Schlüsselwort-Menüauswahlen
treffen und neue Schlüsselwörter eingeben.
Wie ausführlicher
beschrieben wird, kann der Benutzer Schlüsselwörter auch unter Verwendung
anderer Eingabeverfahren eingeben, einschließlich Spracherkennung, Online-Handschriftenerkennung,
Electronic Ink-Abgleich. Beim Electronic Ink-Abgleich wird eine
vom Benutzer gezeichnete Annotation, bei der es sich um eine beliebige
von Hand gezeichnete Markierung handeln kann, abgeglichen, ohne
dass die Annotation einer Erkennung unterzogen wird. So könnte selbst
ein Kind dem Dokument ein von Hand gezeichnetes "Schlüsselwort" zuordnen und das
System würde
zulassen, dass es später
durch Electronic Ink-Suche
nach einer entsprechenden Annotation abgerufen wird. Die Fähigkeit
zur Electronic Ink-Suche ist außerdem
ideal zum Assoziieren von Kanji-Zeichen, chinesischen Schriftzeichen
und anderen Arten von Symbolen, die sonst nicht vom landesspezifischen
Computerbetriebssystem unterstützt
werden.
-
Wie
noch ausführlicher
beschrieben wird, ermöglicht
es eine weitere bevorzugte Ausführungsform dem
Benutzer, Schlüsselwörter anzugeben,
indem er sie auf einer zum gescannten Dokument gehörenden ersten
Seite oder einem zugehörigen
Deckblatt in Druckschrift schreibt oder einkreist. Das System identifiziert automatisch
die vom Benutzer angegebenen Schlüsselwörter auf der gescannten Seite
und verbindet oder assoziiert das Schlüsselwort mit dem Dokument,
das gescannt wird.
-
2 zeigt
eine erste Ausführungsform
und eine zweite oder alternative Ausführungsform einer Vorrichtung
zum Zuordnen von Schlüsselwörtern zu
Dokumenten gemäß der Erfindung. 3 zeigt
noch eine weitere Ausführungsform,
die Schlüsselwortauszugsverfahren
wie das Auszugsverfahren für
eingekreiste Regionen nutzt. Die abgebildeten Ausführungsformen
sind jeweils so konzipiert, dass sie eine einfache und bequeme Benutzeroberfläche bieten,
um Schlüsselwörter zu
Dokumentabbildungen zuzuordnen. Da die Benutzeroberfläche in der
Bildaufbereitungsvorrichtung integriert ist, können Benutzer entsprechende
Schlüsselwörter eingeben,
wenn sie Dokumente digitalisieren, ohne dass zusätzliche Vorrichtungen benötigt werden.
-
In 2 sind
die Komponenten und Unterprozesse für die erste Ausführungsform
und außerdem
die zweite oder alternative Ausführungsform
abgebildet. Der grundlegende Unterschied zwischen den beiden Ausführungsformen
besteht darin, dass die erste Ausführungsform eine Schlüsselwortliste
verwendet und daher ein Untersystem zum Abrufen von Schlüsselwörtern nutzt.
Die alternative Ausführungsform
nutzt keine Schlüsselwortliste
und benötigt
daher das Schlüsselwortabruf-Untersystem
nicht. Die übrigen
Untersysteme dieser beiden Ausführungsformen
sind gleich und werden daher zusammen beschrieben.
-
Die
Grundkomponenten einer elektronischen Bildaufbereitungsvorrichtung
sind unter 50 gezeigt und umfassen ein Scan-Modul oder
eine Scan-Vorrichtung 100 und einen geeigneten Speicher 102 zum
Speichern des gescannten Bilds. In diesen Ausführungsformen interagiert der
Benutzer mit der elektronischen Bildaufbereitungsvorrichtung über einen
geeigneten Benutzeridentifikationsmechanismus 104. Der
Benutzeridentifikationsmechanismus kann verschiedene Formen annehmen:
Magnetkarte, Passwort, Unterschriftserkennung, Spracherkennung,
Chipkarte, Daumenabdruckerkennung und ähnliches. Das Benutzeridentifikationsmodul kann eine
Benutzer-ID mit jedem Benutzer assoziieren. Die ID dient als Schlüssel zum
Identifizieren dieses Benutzers in anschließenden Datenbankprozessen.
-
Wie
oben angemerkt, nutzt eine erste bevorzugte Ausführungsform eine gespeicherte
Schlüsselwortliste.
Daher umfasst die Ausführungsform
ein Schlüsselwortabruf-Untersystem 106,
das auf eine Liste von Schlüsselwörtern zugreift,
die im Speicher 120 gespeichert ist. Die Liste von Schlüsselwörtern kann
eine Menge vordefinierter und/oder individuell angepasster Schlüsselwörter umfassen,
die in einer Beziehung zu einer Benutzer-ID gespeichert sind. Beim
Speicher 120 kann es sich um eine lokale Speichervorrichtung
handeln, die zur elektronischen Bildaufbereitungsvorrichtung 50 gehört ist oder
um ein eine entfernte Datenquelle, auf die über eine geeignete Netzwerkverbindung
zugegriffen werden kann. Bei Bedarf kann es sich beim Speicher 120 um
eine lokale Speichervorrichtung handeln, die Schlüsselwortdaten
durch Herunterladen von einer entfernten Datenquelle im Netzwerk
erhält.
Alternativ kann es sich beim Speicher 120 um eine zu einer
Benutzer-ID-Karte, wie beispielsweise einer Chipkarte, gehörende Speichervorrichtung
handeln, die in einem geeigneten, zur elektronischen Bildaufbereitungsvorrichtung
gehörenden
Kartenleser installiert wird. Wenn eine Chipkarte oder eine andere
tragbare Speichervorrichtung verwendet wird, kann jeder Benutzer
eine Kopie seiner bzw. ihrer Schlüsselwortliste auf der ID-Karte
selbst mit sich führen.
-
Das
Schlüsselwortabruf-Untersystem 106 arbeitet
zusammen mit einem Schlüsselworteingabe-Untersystem 108.
Das Schlüsselworteingabe-Untersystem 108 bietet
verschiedene, allgemein unter 109 gezeigte Benutzeroberflächenoptionen.
Vom Benutzer eingegebene Schlüsselwörter werden
zur sofortigen oder späteren
Verwendung im Speicher 120 gespeichert. In 2 ist
das Schlüsselwort-Abrufsystem
so dargestellt, dass es mit dem Schlüsselworteingabe-Untersystem 108 in
Kommunikation steht; und das Schlüsselworteingabe-Untersystem 108 wurde
so dargestellt, dass es mit dem Speicher 120 in Kommunikation
steht. Daher interagiert in der abgebildeten Ausführungsform
das Schlüsselworteingabe-Untersystem 108 mit
dem Speicher 120 und das Schlüsselwortabruf-Untersystem 106 interagiert über das
Untersystem 108 mit dem Speicher 120. Es ist selbstverständlich möglich, eine alternative
Ausführungsform
zu konfigurieren, in der das Schlüsselwort-Abruf-Untersystem 106 direkt
mit dem Speicher 120 kommuniziert.
-
Das
Schlüsselworteingabe-Untersystem 108 der
bevorzugten Ausführungsform
besteht aus einem Touchpad, einem Speicher und einer CPU. Die zum
Touchpad gehörende
grafische Benutzeroberfläche
kann als Web-Browser
realisiert werden, der XML (Extensible Mark-up Language) sowie andere
Auszeichnungssprachen unterstützt.
Bei Bedarf kann das System so konfiguriert werden, dass wenn ein
Benutzer seine bzw. ihre Benutzeridentifikation eingibt, das Layout
der Benutzeroberfläche
automatisch an die Präferenzen
dieses Benutzers angepasst wird. Benutzerpräferenzen werden im Profildatenspeicher 122 gespeichert,
einem optionalen Merkmal der bevorzugten Ausführungsformen. Außerdem ruft
das Schlüsselwortabruf-Untersystem 106,
wenn der Benutzer seinen bzw. seine Benutzeridentifikation eingibt,
die zuvor gespeicherten Schlüsselwörter des
Benutzers aus dem Speicher 120 ab und zeigt sie gemäß dem bevorzugten
Layout des Benutzers auf dem Berührungsbildschirm
an.
-
Schlüsselwörter werden
im Speicher 120 zusammen mit Benutzer-IDs gespeichert,
so dass die Eingabe einer Benutzer-ID die Schlüsselwörter abruft, die dem Benutzer
zur Verfügung
stehen, einschließlich möglicherweise
vorhandenen individuell angepassten Schlüsselwörtern, die der Benutzer möglicherweise
eingegeben hat. Die Schlüsselwörter werden
vorzugsweise in einer logischen Datenstruktur gespeichert, damit es
für den
Benutzer bequemer ist, das geeignete Schlüsselwort für ein gegebenes Dokument zu
wählen.
In der bevorzugten Ausführungsform
wird eine hierarchisch angeordnete Datenstruktur verwendet. Vorzugsweise
wird eine Auszeichnungssprache verwendet, um die Schlüsselwörter mit
selbstbeschreibenden Datenstrukturen zu kennzeichnen. Diesbezüglich kann
XML verwendet werden. Idealerweise sollten die Schlüsselwörter so
angeordnet sein, dass der Benutzer schnell eine geeignete Liste
identifizieren und das Schlüsselwort
oder die Schlüsselwörter, die
am besten auf das gescannte Bild zutreffen, wählen kann.
-
Zur
Veranschaulichung könnte
die folgende hierarchisch angeordnete Datenstruktur im Zusammenhang
mit der Benutzer-ID "Sekretärin A" verwendet werden:
-
Man
nehme im obigen Beispiel an, dass Sekretärin A ihre Identifikation "Sekretärin A" über ein geeignetes Mittel,
beispielsweise durch Verwendung einer in einen Kartenleser an der
Bildaufbereitungsvorrichtung eingeführte Magnetkarte, eingibt.
Das Schlüsselwortabruf-Untersystem 106 und
das zugehörige
Schlüsselworteingabesystem 108 rufen
die im Speicher 120 gespeicherten Informationen, die mit
dieser Benutzer-ID assoziiert sind, ab. Der gesamte oder ein Teil
des Inhalts des Speichers 120 würde dann auf dem Berührungsbildschirm
oder einem anderen geeigneten Anzeigeschirm angezeigt.
-
Obwohl
die derzeitig bevorzugte Ausführungsform
einen preisgünstigen
Berührungsbildschirm
zum Anzeigen der Schlüsselwortauswahl
und zum Entgegennehmen der Benutzereingaben nutzt, könnte ein
größeres System
einen CRT- oder flachen LCD-Anzeigebildschirm nutzen. Ein solcher
Anzeigebildschirm kann ein zugehöriges
Computeruntersystem zum Ausführen
einer Client-Anwendung oder eines Browsers zur Anzeige der im Speicher 120 gespeicherten
Informationen einschließen.
In einer solchen Konfiguration würden der
Speicher 120 und die zugehörigen Untermodule 106 und 108 als
Informationsserver dienen, der Informationen zum Anzeigen für den Benutzer
an die Client-Anwendung des Browsers liefert.
-
Je
nach Menge der anzuzeigenden Informationen werden möglicherweise
nur die Datenelemente der obersten Ebene angezeigt: "Spesenaufstellung" und "Bestellung". Wenn eine größere Anzeige
verfügbar
ist, können
alternativ auch Wahlmöglichkeiten
unterer Ebenen angezeigt werden: "Zweck" "Angefordert
von (oder Projekt)".
Die Benutzeroberfläche
kann zusätzlich
oder als Ersatz für
den Berührungsbildschirm
einen geeigneten Auswahlmechanismus einschließen. Bei einem solchen Auswahlmechanismus
kann es sich um eine Zeigevorrichtung (Trackball, Touchpad, Maus,
Joystick) oder Tastatur handeln, um Schlüsselwörter aus der angezeigten Liste
zu wählen
und Datenstrukturen unterer Ebenen basierend auf einem angezeigten
Datenelement zu wählen.
-
In
manchen Anwendungen kann es möglich
sein, den Benutzeridentifikationsprozess wegzulassen. Daher ist
das Benutzeridentifikations-Untersystem 104 in diesen Anwendungen
optional. Statt dass der Benutzer sich identifizieren muss, würde eine
alternative Ausführungsform
zulassen, dass der Benutzer einfach direkt aus einer geeigneten
Liste von Schlüsselwörtern wählt. Dazu
würde eine
Auswahl von Schlüsselwörtern, aus
denen der Benutzer wählen
kann, in hierarchischer Weise angezeigt. Alternativ kann der Benutzer
das Schlüsselwort
unter Verwendung des Schlüsselworteingabe-Untersystems 108 direkt
eingeben.
-
Wie
zuvor angemerkt, hat das Schlüsselworteingabe-Untersystem 108 verschiedene
Benutzeroberflächenoptionen.
Diese umfassen numerische Tasten 110 und Buchstabentasten 112,
die unter Verwendung einer physikalischen Tastatur oder einer auf
einem Computer-Berührungsbildschirm
angezeigten virtuellen Tastatur bereitgestellt werden können. Ein
Online-Handschriftenerkennungsmodul 114 lässt den
Benutzer durch von Hand geschriebene Nachrichten mit dem System
interagieren und ein Spracherkennungssystem 116 lässt den
Benutzer unter Verwendung von Sprache mit dem System interagieren.
Als Alternative zur Online-Handschriftenerkennung,
kann ein Electronic Ink-Abgleichsystem 118 verwendet werden.
Das Electronic Ink-Abgleichsystem kann gemäß der Beschreibung in U.S.
Patent 5,832,474, Lopresti, et. al. realisiert werden, um Informationen
durch Durchführen
einer Suche nach teilweisen Übereinstimmungen
von vom Benutzer gezeichneten Annotationen abzurufen.
-
Zum
Schlüsselworteingabemodul 108 gehört das Schlüsselwort-Zusammenführungs-/Verknüpfungsmodul 124.
Das Modul 124 ist für
das Zusammenführen
bzw. Verknüpfen
der vom Benutzer gewählten
Schlüsselwörter mit
den im Speicher 102 gespeicherten Bilddaten zuständig. Die
Schlüsselwörter können mit
der Datenstruktur der Bilddatendatei zusammengeführt werden, beispielsweise
mit dem Kennzeichen einer TIFF-Datei. Alternativ können die
Schlüsselwörter unter
Verwendung geeigneter Datenbanksoftware mit der Bilddatendatei verknüpft werden
oder als Dateiname mit der Datei verknüpft werden (z.B. PO100.tif,
generiert aus dem Schlüsselwort "Purchase Order 100") oder sie können verwendet
werden, um ein zum Speichern eines Bilds verwendetes Verzeichnis
anzugeben, beispielsweise, um ein mit "Projekt-A" zusammenhängendes Bild im Verzeichnis
mit dem Namen "Projekt-A" zu speichern. Die
resultierenden zusammengeführten/verknüpften Bilddaten
und Schlüsselwörter werden
dann an eine Speichervorrichtung 126 geliefert, bei der
es sich entweder um eine lokal angebrachte Vorrichtung oder eine
entfernte Speichervorrichtung, auf die über eine geeignete Netzwerkverbindung
zugegriffen wird, handeln kann.
-
Die
zweite alternative Ausführungsform
der Erfindung verzichtet auf die Schlüsselwortliste. Daher wird das
Untersystem 106 nicht benötigt. Das Schlüsselworteingabe-Untersystem 108 wird
jedoch weiterhin benutzt. Der Benutzer ruft einen der Schlüsselwort-Eingabemechanismen 109 auf,
um Schlüsselwörter direkt
in das Modul 108 einzugeben. Das Modul 108 wiederum
liefert die vom Benutzer ausgewählten
Schlüsselwörter an
das Zusammenführungs-
und Verknüpfungsmodul 124.
Bei Bedarf können
die einen hohen Rechenaufwand beanspruchenden Komponenten wie die
Handschriften- und
Spracherkennungskomponenten und/oder die Kreisauszugs- und/oder
Electronic Ink-Verarbeitungskomponenten auf einem entfernten Server
realisiert werden, beispielsweise dem zum Bildspeichersystem gehörenden Server.
-
Eine
dritte Ausführungsform
der Erfindung ist in 3 dargestellt. Diese Ausführungsform
nutzt ein Schlüsselwortauszugsverfahren,
mit dem die Notwendigkeit für
die Tastatur, Handschriften-, Sprach- und Electronic Ink-Eingabemechanismen
eliminiert werden kann. Statt dessen verwendet die Ausführungsform
das Scan-Untersystem 100 und dessen zugehörigen Speicher,
um die gewünschten
Schlüsselwörter einzugeben. Der
Benutzer schreibt von Hand Schlüsselwörter auf
die erste Seite eines Dokuments oder auf ein Deckblatt und diese
handgeschriebenen Schlüsselwörter werden
gescannt und als Bilder im Speicher 102 gespeichert.
-
Das
Schlüsselwortauszugsmodul 134 und
das Schlüsselworterkennungsmodul 136 analysieren
dann die vom Benutzer handgeschriebenen Schlüsselwörter, um sie auszuziehen und
in geeigneten alphanumerischen Text umzuwandeln, der dann durch
das Modul 124 mit den restlichen Bilddaten zusammengeführt oder verknüpft werden
kann.
-
Als
Alternative zur handschriftlichen Eingabe von Schlüsselwörtern kann
ein Auszugsverfahren für
eingekreiste Regionen angewandt werden. Die Einzelheiten des derzeit
bevorzugten Auszugsverfahren sind nachfolgend beschrieben. Statt
die Schlüsselwörter zu
schreiben, zeichnet der Benutzer einfach Kreise um Schlüsselwörter, die
im Text des zu scannenden Dokuments bereits vorkommen. Das Auszugsverfahren
für eingekreiste
Regionen identifiziert die vom Benutzer gezeichneten Kreise und
zieht dann die Schlüsselwörter aus
diesen identifizierten Kreisen aus. Vorzugsweise werden die ausgezogenen
Schlüsselwörter dann
erkannt.
-
In
manchen Fällen
kann es nützlich
sein, eine Form von Benutzeridentifikation an den zu speichernden Bildern
anzubringen. Das Benutzeridentifikationsmodul 104 liefert
diese Informationen, wie abgebildet, direkt an das Zusammenführungs-/Verknüpfungsmodul 124.
Das Benutzeridentifikationsmodul 104 kann auf eine der
oben in Zusammenhang mit 2 beschriebenen Arten realisiert
werden. In allen Ausführungsformen kann
es außerdem
von Vorteil sein, Angaben zu Datum und Uhrzeit zu den gespeicherten
Bildern hinzuzufügen.
Solche Informationen können
vom Benutzeridentifikationsmodul 104 eingegeben werden.
Selbstverständlich
können
die Angaben zu Datum und Uhrzeit auch unter Verwendung anderer Module
hinzugefügt
werden. Diesbezüglich
könnte
beispielsweise das Zusammenführungs-
und Verknüpfungsmodul 124 mit
der Datums- und Zeitstempelfähigkeit
ausgestattet werden.
-
Ausziehen eingekreister
Regionen
-
Das
derzeit bevorzugte Verfahren zum Ausziehen von vom Benutzer eingekreisten
Regionen verwendet ein Konturanalyseverfahren. Das Verfahren basiert
auf dem Identifizieren der Kontur eines Kandidatenobjekts. Das Kandidatenobjekt
kann vom Benutzer gezeichnete Kreise, maschinell gedruckte Rahmen
oder anderes Nicht-Text-Material auf der Seite umfassen. Durch Analyse
der Kontur mit einem Merkmalauszugsmodul zieht der Algorithmus den
vom Benutzer gezeichneten Kreis aus. Die Kontur wird durch eine
Folge von Punkten mit verschiedenen Krümmungswerten dargestellt. So
kann durch ein Nachverarbeitungs-Analyseverfahren ein vom Benutzer
gezeichneter Kreis von einem maschinell gedruckten Rahmen unterschieden
werden.
-
In 4 besteht
der erste Schritt (Schritt 250) darin, die zusammenhängenden
Komponenten innerhalb einer gegebenen Seite zu finden. In diesem
Schritt wird das Bild zeilenweise gescannt und jeder Pixel wird
gekennzeichnet, wenn er mit seinen benachbarten Pixeln zusammenhängt. Nach
dem Kennzeichnen der Pixel hinsichtlich des Zusammenhängens wird
für jede
zusammenhängende
Komponente eine Bounding Box berechnet. Diese Bounding Boxes werden
zum Ausziehen des Kandidatengebiets im Bild verwendet.
-
Dann
(in Schritt 252) werden Text repräsentierende zusammenhängende Komponenten
eliminiert.
-
Dazu
wird die Größe der Bounding
Box analysiert und es werden diejenigen zusammenhängenden Komponenten
eliminiert, deren Bounding Boxes unter einer vorbestimmte Größe sind.
-
Als
nächstes
werden in Schritt 254 Halbtonbilder eliminiert. Halbtonbilder
bilden große
zusammenhängende
Komponenten. Der Algorithmus erkennt Halbtonbilder, indem er das
Verhältnis
schwarzer zu weißer
Pixel in der zur betreffenden zusammenhängenden Komponente gehörenden Bounding
Box abschätzt.
Halbtonbilder haben tendenziell mehr schwarze Pixel als Text enthaltende
Gebiete.
-
Um
den Algorithmus zu beschleunigen, kann bei 256 ein optionaler
Vorverarbeitungsschritt durchgeführt
werden. Das Konturanalyseverfahren generiert möglicherweise mehr Merkmalpunkte
als tatsächlich
benötigt
werden, wenn irrelevante Zeichen die betreffende Kontur berühren. Dies
kann beispielsweise dann vorkommen, wenn der Benutzer einen Kreis
zeichnet, der zufällig
andere Zeichen auf der Seite schneidet.
-
Der
optionale Vorverarbeitungsschritt eliminiert diese berührenden
Zeichen, durch Ausführen
eines morphologischen Ablaufs, um die Form der Kontur in der Region,
in der sich der vom Benutzer gezeichnete Kreis und das irrelevante
Zeichen schneiden, zu vereinfachen.
-
Als
nächstes
wird der vom Benutzer gezeichnete Kreis identifiziert, indem verschiedene
Kandidatengebiete auf der Seite untersucht werden. Im ersten Schritt
in diesem Verfahren, dargestellt unter 258, wird die Kontur
des Kandidatenobjekts generiert. Dazu wird der Umriss des Objekts
nachgezogen. Die Kontur wird im Computerspeicher als geordnete Menge
von Punkten dargestellt (Koordinaten der Grenzpixel). Das Nachziehschema
scannt zuerst nach dem Anfangspunkt (einem Grenzpixel, der noch
nicht nachgezogen wurde). Dann beginnt die Nachziehspur im Uhrzeigersinn
entlang dem konvexen Umriss des Objekts. Wenn die Nachziehspur zum
Anfangspunkt zurückkehrt
oder an einen Punkt gelangt, an dem um den aktuellen Pixel herum
keine weiteren schwarzen Pixel gefunden werden können, hört das Nachziehen auf und der
Scanprozess zum Auffinden des nächsten
Anfangspunkts fährt
fort.
-
Als
nächstes
werden die im Schritt 258 erhaltenen Konturen analysiert,
indem zu jeder Kontur gehörende
Merkmalpunkte berechnet werden (Schritt 260). Bei den in
Schritt 258 erhaltenen Konturen kann es sich aufgrund von
Rauschen im Bild um geschlossene Kurven oder um unterbrochene Kurven
handeln. Merkmalpunkte sind als Punkte mit starker Krümmung definiert,
einschließlich
Schnittpunkte von Kreisen mit anderen Objekten. Die Krümmung kann
mittels Resampling-Verfahren berechnet werden, dies ist jedoch möglicherweise
nicht zuverlässig,
wenn während
des Digitalisierungsprozesses Rauschen generiert wird. Durch Beobachtung
können
die Merkmalpunkte ungefähr
entweder an den lokalen Maxima oder lokalen Minima in x- und y-Richtung
erfasst werden, obwohl nicht alle Maxima und Minima Merkmalpunkte
sind. In der bevorzugten Realisierung werden der Anfangspunkt und
der Endpunkt jeder Kontur als Merkmalpunkte behandelt.
-
Nachdem
die Merkmalpunkte identifiziert wurden, wird die eingekreiste Region
unter Verwendung der Merkmalpunkte rekonstruiert. Dies ist in Schritt 262 dargestellt.
Im Wesentlichen wird jede in Schritt 258 generierte Kontur
an den Merkmalpunkten in Segmente unterteilt. Diese Segmente werden
untersucht und wieder zusammengefügt, so dass zu verschiedenen
Objekten gehörende
Segmente getrennt und zum selben Objekt gehörende zusammengefügt werden.
-
Das
Hauptkriterium zum wieder Zusammenfügen der Kontursegmente besteht
darin, beim Herstellen des Übergangs
zwischen benachbarten Segmenten die Glattheit zu prüfen. Für jedes
Kontursegment wird jeweils ein kleines Gebiet um seinen Anfangs-
und Endpunkt untersucht. Die Punkte an den beide Enden werden in
Linien eingepasst, so dass die Steigung (Eintritts- und Austrittswinkel
aus dem Segment) abgeschätzt
werden kann. Diese geschätzten
Winkel werden verwendet, um abzuschätzen, ob sich zwei Liniensegmente
so einander nähern,
dass sie als zur selben Kontur gehörend zusammengefügt werden
sollten oder ob sie sich so überkreuzen,
dass sie zu nicht verwandten Konturen gehören.
-
Unter
Verwendung der in Schritt 262 rekonstruierten Kreise werden
die vom Benutzer gezeichneten Kreise in Schritt 264 unter
Verwendung einer Reihe von Tests identifiziert. Der erste Test basiert
auf der Größe der Kontur
sowie der Fläche,
die die Kontur abdeckt. Wenn die Länge der Kontur einen vorbestimmten
Schwellenwert übersteigt
und die Bounding Box der Kontur eine vorbestimmte Fläche abdeckt,
betrachtet der Algorithmus die Kontur als vom Benutzer gezeichneten
Kreis.
-
Um
zwischen vom Benutzer gezeichneten Kreisen und maschinell gedruckten
Rahmen, beispielsweise rechteckigen Rahmen, maschinell gedruckten
Kreisen oder Tabellen zu unterscheiden, wird jedoch die Glattheit
der zusammenhängenden
Kontur untersucht. Eine Möglichkeit
zum Messen der Glattheit besteht darin, die durchschnittliche Krümmung entlang
der zusammenhängenden
Kontur zu berechnen. Wenn die Glattheit einen vorbestimmten Schwellenwert übersteigt,
wird die Kontur als maschinell gedruckt betrachtet.
-
Da
der Algorithmus eingekreiste Regionen aus den berechneten Merkmalpunkten
rekonstruiert, kann er vom Benutzer gezeichnete Kreise selbst dann
identifizieren, wenn sie kleine Lücken oder Unterbrechungen beinhalten.
Bei Bedarf können
die vom Benutzer gezeichneten Kreiskandidaten weiter evaluiert werden,
um festzustellen, ob ggf. vorhandene Lücken groß genug sind, um die Zurückweisung
als vom Benutzer gezeichnete Kreise zu rechtfertigen. Bei der Analyse
(dargestellt in Schritt 266) wird der Abstand zwischen
Anfangs- und Endpunkt einer Kontur abgeschätzt. Es gibt verschiedene Möglichkeit
zum Abschätzen
des Abstands.
-
Ein
Verfahren zum Abschätzen
des Abstands besteht darin, festzustellen, ob ein Endpunkt innerhalb eines
vorbestimmten radialen Abstands vom anderen Endpunkt liegt. Wir
bezeichnen dies als eine Kreis-Abstandsfunktion.
Ein weiteres Verfahren besteht darin, eine quadratische Bounding
Box vorbestimmter Größe um einen
Endpunkt zu definieren und festzustellen, ob der andere Endpunkt
innerhalb dieser Bounding Box liegt. Wir bezeichnen dies als die
Quadrat-Abstandsfunktion. Ein drittes Verfahren besteht darin, eine
quadratische Bounding Box vorbestimmter Größe um einen Endpunkt zu definieren
und dann die Bounding Box um diesen Endpunkt zu drehen, um festzustellen,
ob bei irgend einem Drehwinkel der zweite Endpunkt in die Bounding
Box fällt.
Dies geschieht, wenn überhaupt,
wenn eine Ecke der Bounding Box auf einer Linie zwischen den beiden
Endpunkten liegt. Wir nennen dies die Manhattan-Abstandsfunktion.
-
Falls
die Kontur einen der obigen Tests nicht besteht, wird sie statt
als vom Benutzer gezeichneter Kreis als offener Bogen betrachtet.
Nachdem der vom Benutzer gezeichnete Kreis, wie oben beschrieben, identifiziert
wurde, wird die Bounding Box um seine Kontur dazu verwendet, die
Region einzugrenzen, die für die
anschließende
optische Zeichenerkennungsanalyse ausgezogen wird. Dies ist in Schritt 268 dargestellt. Das
Bild in der Bounding Box der Kontur wird ausgezogen und das ausgezogene
Bild wird einer optischen Zeichenerkennung unterzogen, um das Schlüsselwort
bzw. die Schlüsselwörter für die Datenbanksuche
zu bestimmen. Wenn kein guter Kreis identifiziert wird, kann das
System dazu konfiguriert werden, zu versuchen, eine Faxnummer aus
einem zuvor als offener Bogen oder schlecht gezeichneter Kreis zurückgewiesenen "Kreis" auszuziehen. Die
ausgezogene Nummer wird dem Benutzer, wie oben beschrieben, zur
Bestätigung bzw.
Korrektur vorgelegt.
-
Betrieb
-
Schlüsselwörter können vom
Benutzer unter verschiedenen Umständen eingegeben werden. Schlüsselwörter können als
Teil einer Aufgabenspezifikation eingegeben werden, beispielsweise
wie beim Angeben der Anzahl von Kopien, die ein Kopierer machen
soll, bevor das gescannte Dokument digitalisiert wird. Wenn die
elektronische Bildaufbereitungsvorrichtung den Multitasking-Betrieb
unterstützt,
kann der Benutzer Schlüsselwörter eingeben,
während
die Vorrichtung das Dokument scannt. Der Scan-Mechanismus 100 hat
möglicherweise
eine automatische Seitenzufuhreinrichtung und der Benutzer kann
Schlüsselwörter eingeben,
während
der Zufuhrmechanismus in Betrieb ist. Schlüsselwörter können außerdem als Teil einer Aufgabenspezifikation
eingegeben werden, beispielsweise der Identifikation der von der
Bildaufbereitungsvorrichtung auszuführenden Bildverarbeitung und/oder
Bildlenkung. Diesbezüglich
kann die Bildaufbereitungsvorrichtung zusätzliche Prozesse mit dem gescannten
Bild durchführen,
nachdem es in den Speicher 102 geladen wurde. Außerdem kann
die Bildaufbereitungsvorrichtung eine zugehörige Telekommunikationskomponente
(nicht abgebildet) haben, um das Bild zu faxen oder es über ein
Computernetzwerk an einen entfernten Ort zu schicken. Darüber hinaus
kann die Bildaufbereitungsvorrichtung einen zugehörigen Druckmechanismus
haben, um zuzulassen, dass Ausdrucke des Bilds im Speicher 102 gedruckt
werden können.
-
Wie
zuvor angemerkt, kann das System benutzt werden, ohne dass zuerst
die Benutzeridentifikation bereitgestellt wird. Dies erfolgt durch
Wechseln in einen Schlüsselwortmodus,
der durch Wählen
einer geeigneten Touchpad-"Taste" auf dem Anzeigebildschirm
gewählt
werden kann. Wenn der Benutzer den Schlüsselwortmodus wählt, wird
eine vorbestimmte Menge von Schlüsselwörtern auf
dem Berührungsbildschirm
angezeigt. Die Schlüsselwörter können hierarchisch
organisiert sein. Der Benutzer wählt
einfach geeignete Schlüsselwörter (es
können
eines oder mehrere Schlüsselwörter gewählt werden).
Wenn als Teil des Schlüsselworts eine
Zahl eingegeben werden muss, beispielweise eine Auftragsnummer,
wird die numerische Tastatur 110 verwendet. Alle gewählten Schlüsselwörter werden
im Speicher 120 gespeichert, so dass die selben Schlüsselwörter für eine Folge ähnlicher
Dokumente wiederverwendet werden können. Gespeicherte Schlüsselwörter können vom
Benutzer abgerufen und geändert
werden. So kann ein Schlüsselwort,
das eine zugehörige Auftragsnummer
enthält,
geändert
werden, indem ein zuvor gespeichertes Schlüsselwort mit Zahlen abgerufen
wird und dann die Zahlen mit der numerischen Tastatur bearbeitet
werden.
-
Wenn
Schlüsselwörter nicht
in der Schlüsselwortliste
gefunden werden, kann der Benutzer sie hinzufügen. Die derzeit bevorzugte
Ausführungsform
nutzt einen weiteren Betriebsmodus, der hierin als "anderer Modus" bezeichnet wird.
Wenn der Benutzer den anderen Modus wählt, können zur Eingabe des hinzuzufügenden Schlüsselworts
die numerische Tastatur 110, die Buchstabentastatur 112,
das Handschriftenerkennungsmodul 114, das Spracherkennungsmodul 116 und
das Electronic Ink-Modul 118 verwendet werden.
-
Es
ist zu beachten, dass bei Verwendung des Electronic Ink-Moduls 118 die
vom Benutzer eingegebene Annotation nicht unbedingt ein Schlüsselwort
im herkömmlichen
Sinn darstellt. Statt dessen kann es sich bei der vom Benutzer gezeichneten
Annotation um eine beliebige Kombination von vom Benutzer gezeichneten
Strichen handeln, die der Benutzer als ein Schlüsselwort speichern möchte, das
mit den gescannten Bilddaten verknüpft werden soll. Beispielsweise
könnte
der Benutzer ein einfaches Bild zeichnen und dieses Bild würde dann
als Schlüsselwort
zum späteren
Abrufen des Dokuments dienen. Der Electronic Ink-Abgleich wäre daher also nützlich,
wenn Zeichen in einer Sprache eingegeben werden, die vom landespezifischen
System nicht unterstützt
wird. Beispielsweise könnte
der Benutzer Kanji-Zeichen oder Chinesische Schriftzeichen zeichnen,
um Wörter
in einer asiatischen Sprache wie Japanisch oder Chinesisch darzustellen,
ohne dass das System diese Zeichen erkennen können muss.
-
Wenn
der Benutzer neue Schlüsselwörter in
das System einträgt,
kann der Benutzer optional außerdem
die logische Bedeutung dieser Schlüsselwörter speichern. So könnte der
Benutzer angeben, dass ein gewisses Verkäuferschlüsselwort mit dem Auftragsschlüsselwort
assoziiert ist. Das Schlüsselwort
und seine logische Bedeutung könnten
daher beispielsweise unter Verwendung von XML gespeichert werden.
-
Aus
dem Obenstehenden ist zu sehen, dass die Erfindung ein System zum
herkömmlichen
Zuordnen eines Schlüsselworts
zu einem digitalisierten Bild bereitstellt. Der Benutzer gibt einfach
die Schlüsselwortinformationen
an der Digitalisierungsausrüstung
ein. Das System formatiert die Schlüsselwortinformationen und ordnet
die formatierten Informationen dem digitalisierten Bild zu. Da es
Benutzern erlaubt ist, geeignete Schlüsselwörter Dokumenten zuzuordnen,
wenn sie sie digitalisieren, müssen
sie sich nicht mit den zusätzlichen
Schritten abgeben, die von herkömmlichen
Software- oder Hardware-Dokumentenverwaltungssystemen benötigt werden.
-
Obwohl
die Erfindung in ihrer derzeit bevorzugten Ausführungsform beschrieben wurde,
um für
ein besseres Verständnis
der Erfindung zu sorgen und ihre Grundsätze zu beschreiben, ist zu
beachten, dass die Erfindung auf verschiedene Weisen realisiert
werden kann, ohne vom Umfang der Erfindung, wie er in den angehängten Patentansprüchen dargelegt
ist, abzuweichen.