DE10162156A1 - Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle - Google Patents
Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und BenutzerschnittstelleInfo
- Publication number
- DE10162156A1 DE10162156A1 DE10162156A DE10162156A DE10162156A1 DE 10162156 A1 DE10162156 A1 DE 10162156A1 DE 10162156 A DE10162156 A DE 10162156A DE 10162156 A DE10162156 A DE 10162156A DE 10162156 A1 DE10162156 A1 DE 10162156A1
- Authority
- DE
- Germany
- Prior art keywords
- text
- image
- file
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Abstract
Ein Verfahren zum Extrahieren von verankerbaren Informationseinheiten (AIUs) aus einer PDF-Datei (Portable Document Format), die entweder mit einem Editor oder durch Einscannen von Dokumenten erzeugt werden kann. Das Verfahren umfaßt das Parsen des PDF-Dokuments zu Textteilen und Nicht-Textteilen und das Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen. Das Verfahren umfaßt weiterhin das Bestimmen von Text in Textteilen und das Texten der Nicht-Textteile und das Erstellen von Hyperlinks für mehrere Schlüsselwörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.
Description
Die vorliegende Erfindung betrifft die Verarbeitung von
Multimedia-Dateien zur Bereitstellung von Infor
mationen, die die Benutzernavigation durch Multimedia-
Dateiinhalte unterstützen.
Die Nachfrage nach Hypermedia-Anwendungen hat mit der
wachsenden Beliebtheit des World Wide Web zugenommen.
Als Ergebnis ist ein effektives und automatisches
Verfahren zur Erzeugung von Hypermedien notwendig
geworden. Die Erzeugung von Hypermedien kann jedoch
eine aufwendige und manuell intensive Aufgabe sein. Die
Erzeugung von Hypermedien kann insbesondere bei der
Bezugnahme auf Inhalte in Dokumenten, wie zum Beispiel
Bilder und/oder andere Medien, schwierig sein.
In vielen Fällen müssen die Hypermedia-Autoren
verankerbare Informationseinheiten (AIUs - Anchorable
Information Units) oder Hotspots finden, die Bereiche
oder Schlüsselwörter mit besonderer Bedeutung sind, und
entsprechende Hyperlinks zu relevanten Informationen
erstellen. In einem elektronischen Dokument kann ein
Benutzer zugeordnete Informationen durch Auswählen
dieser Hotspots abrufen, während das System die
zugeordneten Hyperlinks interpretiert und die
entsprechenden relevanten Informationen abruft.
Bei bisherigen Arbeiten auf diesem Gebiet wurden
gescannte Bitmap-Bilder als Eingabe für ein
Dokumentanalysesystem verwendet. Die Klassifizierung
des Dokumentsystems wird häufig von a-priori-Kenntnis
der Klasse des Dokuments bestimmt. Es wurde bisher nur
wenig an der Verwendung von Postscript-Dateien als
Startpunkt für die Dokumentanalyse gearbeitet. Wenn
eine Postscript-Datei für maximale Raster-Effizienz
ausgelegt ist, kann es sicherlich eine entmutigende
Aufgabe sein, auch nur die Lesereihenfolge für das
Dokument zu rekonstruieren. Bisherige Forscher haben
vielleicht angenommen, daß immer ein gut strukturierter
Quellentext verfügbar ist, der mit der Postscript-
Ausgabe übereinstimmt, und ein Arbeiten von unten nach
oben aus dem Postscript nur selten notwendig sein
würde. PDF-Dokumente können jedoch auf vielfältige
Weise erzeugt werden, darunter auch eine Route auf der
Grundlage der optischen Zeichenerkennung (OCR) direkt
aus einer Bitmap-Seite. Die zusätzliche Struktur in PDF
über die in Postscript hinaus kann im Hinblick auf das
Ziel des Verständnisses des Dokuments ausgenutzt
werden.
Bisherige Arbeiten haben Verfahren vorgeschlagen, die
mit dem Verstehen von Rasterbildern zusammenhängen. Da
diese Aufgabe definitionsgemäß ein Umkehrungsproblem
ist, läßt sie sich nicht ohne. umfassende Annahmen
durchführen. Eine direkte Anwendung dieser Verfahren
auf PDF-Dokumente wäre nur wenig sinnvoll, da sie nicht
dafür ausgelegt sind, die zugrundeliegende Struktur von
PDF-Dateien auszunutzen und somit unerwünschte
Ergebnisse erzeugen.
Im Gegensatz zu der Analyse des geometrischen Layouts
wurde der Analyse des logischen Layouts nur sehr wenig
Aufmerksamkeit geschenkt. Bestimmte Verfahren für die
Analyse des logischen Layouts führen eine
Bereichsidentifikation oder -klassifikation in einem
abgeleiteten geometrischen Layout durch. Diese Ansätze
basieren jedoch im wesentlichen auf Regeln und das
Endergebnis hängt somit von der Zuverlässigkeit der
vorgegebenen Informationen ab, und davon, wie gut die
vorgegebenen Informationen in den Regeln repräsentiert
sind.
Systeme wie zum Beispiel Acrobat verfügen nicht über
die Möglichkeit, Bilder zu verarbeiten. Stattdessen
läßt Acrobat das gesamte Dokument durch ein OCR-System
laufen. OCR ist natürlich nicht in der Lage, Objekte zu
extrahieren, aber auch im Fall des Verstehens von Text
kann die Ausgabe unzuverlässig sein, da Vielzweck-OCR
bei Verwendung zum direkten Verstehen eingescannter
Bilder fehleranfällig ist.
Deshalb wird ein Verfahren zum Analysieren und
Extrahieren von Text aus mit verschiedenen Mitteln
erzeugten PDF-Dokumenten benötigt.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein System zur Verarbeitung einer Multimedia-Datei
bereitgestellt, um Informationen zu liefern, die die
Benutzernavigation durch Inhalte von Multimedia-Dateien
unterstützen. Das System enthält einen Inhalts-Parser
zum Identifizieren von Text- und Bildinhalten einer
Datei und einen Bildprozessor zum Verarbeiten der
identifizierten Bildinhalte zur Identifizierung
eingebetteter Textinhalte. Das System enthält ferner
einen Textsortierer zum Parsen des identifizierten
Texts und des identifizierten eingebetteten Texts, um
gemäß vorbestimmter Sortierregeln Textelemente zu
finden, und Speicher zum Speichern einer die
Textelemente enthaltenden Navigationsdatei.
Die Navigationsdatei weist zu mindestens einem internen
Dokument-Objekt Links auf. Die Navigationsdatei weist
zu mindestens einem externen Dokument-Objekt Links auf.
Der Bildprozessor enthält einen Schwarzweiß-
Bildprozessor mit einer Pixel-Verschmierungskomponente,
die Text auf einen rechteckigen Pixelblock reduziert,
und eine Bildfilterungskomponente zum Säubern eines
verschmierten Bildes.
Der Inhalts-Parser wendet Textextrahierungsregeln an,
um Text und eine Dokumentstruktur zu identifizieren,
wobei die Dokumentstruktur einen Kontext für
identifizierten Text definiert. Der Inhalts-Parser
wendet vordefinierte hierarchische Regeln zur
Bestimmung einer Ebene von identifiziertem Text an.
Der Bildprozessor wendet Objektschablonen an, um
eingebetteten Text zu identifizieren.
Das System verfeinert eine Suchauflösung während eines
Textidentifizierungsprozesses, um eine Position des
eingebetteten Texts in einem Bild zu bestimmen.
Identifizierter Text umfaßt Hyperlinks.
Gemäß einer anderen Ausführungsform der vorliegenden
Erfindung wird ein grafisches Benutzerschnittstellen
system bereitgestellt, das die Verarbeitung einer
Multimedia-Datei zur Bereitstellung von Informationen
zur Unterstützung der Benutzernavigation durch
Multimedia-Dateiinhalte unterstützt. Das grafische
Benutzerschnittstellensystem enthält einen Menü
generator zum Erzeugen eines oder mehrerer Menüs, die
dem Benutzer die Auswahl einer Eingangsdatei und eines
Eingangsformats zur Verarbeitung ermöglichen, und eines
Symbols, das dem Benutzer die Einleitung der Erzeugung
einer Navigationsdatei ermöglicht, die das Erstellen
von Links für Eingangsdateielemente zu externen
Dokumenten durch Parsen und Sortieren von Text- und
Bildinhalten zur Identifizierung von Text zur
Integration in eine Navigationsdatei unterstützt.
Identifizierter Text umfaßt Hyperlinks.
Die Navigationsdatei umfaßt weiterhin Links zu
mindestens einem internen Dokument-Objekt.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein Verfahren zur Erzeugung einer verankerbaren
Informationseinheit in einem PDF-Dokument (portable
document format) bereitgestellt. Das Verfahren umfaßt
das Extrahieren eines Textsegments aus dem PDF-
Dokument, das Bestimmen eines Kontexts des Segments,
wobei der Kontext aus einer kontextabhängigen
hierarchischen Struktur ausgewählt wird, und das
Definieren des Textsegments als eine verankerbare
Informationseinheit gemäß dem Kontext.
Das PDF-Dokument enthält eines oder mehrere Textobjekte
und eines oder mehrere Nicht-Textobjekte, wobei die
Objekte Textsegmente enthalten.
Das Bestimmen des Kontexts umfaßt das Vergleichen des
Textsegments mit mehreren bekannten Mustern in dem PDF-
Dokument und das Bestimmen des Kontexts bei Bestimmung
einer Übereinstimmung zwischen dem Textsegment und
einem bekannten Muster des PDF-Dokuments.
Das Extrahieren von Text umfaßt weiterhin das
Extrahieren von Text aus einem Bild des PDF-Dokuments,
das Bestimmen eines Bildtyps, wobei der Typ ein
Schwarzweißbild, ein Graustufenbild oder ein Farbbild
ist, und das Verarbeiten des Bildes gemäß dem Typ.
Das PDF-Dokument enthält eine bekannte kontextabhängige
hierarchische Struktur. Die kontextabhängige
hierarchische Struktur, einschließlich der veranker
baren Informationseinheit, ist durchsuchbar. Der
Kontext enthält eine Position der extrahierten
Textsegmente. Das Bestimmen des Kontexts umfaßt das
Bestimmen einer Position und eines Stils des
Textsegments.
Das Verfahren umfaßt weiterhin das Speichern des
Textsegments in einer SGML-Syntax (Standard Generalized
Markup Language) unter Verwendung einer vordefinierten
Grammatik.
Die verankerbare Informationseinheit wird automatisch
mit Hyperlinks versehen.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein Verfahren zum Erzeugen einer Datei
verankerbarer Informationseinheiten aus einem PDF-
Dokument bereitgestellt. Das Verfahren umfaßt das
Parsen des PDF-Dokuments zu Textteilen und Nicht-
Textteilen. Das Verfahren umfaßt weiterhin das
Extrahieren von Struktur aus den Textteilen und den
Nicht-Textteilen und das Bestimmen von Text in den
Textteilen, und Texten der Nicht-Textteile. Das
Verfahren erstellt Hyperlinks für mehrere
Schlüsselwörter in den Textteilen und Nicht-Textteilen
zu mindestens einem verwandten Dokument.
Das Parsen umfaßt weiterhin den Schritt des
Unterscheidens zwischen Farbbildinhalt, Schwarzweiß
inhalt und Graustufeninhalt.
Das Extrahieren umfaßt weiterhin das Bestimmen einer
Ebene für extrahierte Textteile, das Zuordnen des
Kontexts zu dem Text und einen Mustervergleich von
extrahiertem Text mit dem PDF-Dokument zur Bestimmung
eines Kontexts. Die Ebene ist ein Absatz, eine
Überschrift oder eine Unter-Überschrift. Der Musterver
gleich umfaßt die Bestimmung einer Median-Fontgröße für
das PDF-Dokument, das Vergleichen einer Fontgröße des
extrahierten Texts mit der Median-Fontgröße für das
PDF-Dokument und das Bestimmen eines Kontexts gemäß der
Fontgröße.
Das Erzeugen von Hyperlinks umfaßt das Erzeugen der
Datei verankerbarer Informationseinheiten, wobei die
mehreren Schlüsselwörter verankerbare Informations
einheiten sind.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein Programmspeichergerät bereitgestellt, das
maschinenlesbar ist und greifbar ein Programm von durch
die Maschine ausführbaren Anweisungen zur Durchführung
von Verfahrensschritten zum Erzeugen einer Datei
verankerbarer Informationseinheiten aus einem PDF-
Dokument realisiert.
Bevorzugte Ausführungsformen der vorliegenden Erfindung
werden nachfolgend ausführlicher mit Bezug auf die
beigelegten Zeichnungen beschrieben. Es zeigen:
Fig. 1 ein Flußdiagramm einer Übersicht eines
Verfahrens zum Erzeugen einer verankerbaren
Informationseinheit gemäß einer Ausführungsform der
vorliegenden Erfindung;
Fig. 2 ein Flußdiagramm eines Verfahrens zum Erzeugen
einer verankerbaren Informationseinheit gemäß einer
Ausführungsform der vorliegenden Erfindung; und
Fig. 3a-b ein Flußdiagramm eines Verfahrens zum
Erzeugen einer verankerbaren Informationseinheit gemäß
einer Ausführungsform der Vorliegenden Erfindung.
Fig. 4 eine grafische Benutzerschnittstellenanzeige,
die die Verarbeitung einer Multimedia-Datei zur
Bereitstellung von Informationen zur Verwendung bei der
Navigation durch Multimedia-Dateiinhalte gemäß einer
Ausführungsform der vorliegenden Erfindung unterstützt.
Die vorliegende Erfindung liefert ein automatisiertes
Verfahren zum Finden von Hotspots in einer PDF-Datei
und zum Erzeugen von AIUs mit Querverweisen in
Hypermedia-Dokumenten. Zum Beispiel können Textzeichen
ketten auf einen relevanten Maschinenteil in einem ein
industrielles Instrument beschreibenden Dokument
zeigen.
Es versteht sich, daß die vorliegende Erfindung in
verschiedenen Formen von Hardware, Software, Firmware,
Spezialprozessoren oder einer Kombination davon
implementiert werden kann. Bei einer Ausführungsform
kann die vorliegende Erfindung in Software als ein
Anwendungsprogramm implementiert werden, das greifbar
auf einem Programmspeichergerät realisiert wird. Das
Anwendungsprogramm kann auf eine Maschine mit
beliebiger geeigneter Architektur heraufgeladen und von
dieser ausgeführt werden. Vorzugsweise wird die
Maschine auf einer Computerplattform mit Hardware, wie
zum Beispiel einer oder mehreren zentralen
Verarbeitungseinheiten (CPUs), einem Direktzugriffs
speicher (RAM) und Eingangs-/Ausgangs(E/A-)
Schnittstelle(n) implementiert. Die Computerplattform
enthält außerdem ein Betriebssystem und
Mikrobefehlscode. Die verschiedenen hier beschriebenen
Prozesse und Funktionen können entweder Teil des
Mikrobefehlscodes oder Teil des Anwendungsprogramms
(oder einer Kombination dieser) sein, der bzw. das über
das Betriebssystem ausgeführt wird. Zusätzlich können
verschiedene andere Peripheriegeräte mit der
Computerplattform verbunden werden, wie zum Beispiel
ein zusätzliches Datenspeichergerät und ein Druckgerät.
Da ein Teil der in den beigefügten Figuren abgebildeten
Systemkomponenten und Verfahrensschritte in Software
implementiert werden können, versteht sich weiterhin,
daß die tatsächlichen Verbindungen zwischen den
Systemkomponenten (oder Prozeßschritten) abhängig von
der Art und Weise der Programmierung der vorliegenden
Erfindung unterschiedlich sein können. Mit den hier
angegebenen Lehren der vorliegenden Erfindung werden
Durchschnittsfachleute auf dem betreffenden Gebiet in
der Lage sein, diese und ähnliche Implementierungen
oder Konfigurationen der vorliegenden Erfindung in
Betracht zu ziehen.
Die betrachteten PDF-Dateien können einfachen Text oder
allgemeiner eine Mischung von Text und vielfältigen
verschiedenen Bildtypen, wie zum Beispiel Schwarzweiß,
Graustufen und Farbe enthalten. Gemäß einer
Ausführungsform der vorliegenden Erfindung findet das
Verfahren die Text- und Nicht-Textbereiche und wendet
auf beides verschiedene Verarbeitungsverfahren an. Für
die Nicht-Textbereiche werden gemäß dem Typ des darin
enthaltenen Bildes verschiedene Bildverarbeitungs
verfahren verwendet.
Das Extrahieren von AIUs ist für die Erzeugung von
Hypermedia-Dokumenten wichtig. Bei bestimmten PDF-
Dateien, z. B. solche, die in einen Computer eingescannt
wurden, kann dies jedoch schwierig werden. Gemäß einer
Ausführungsform der vorliegenden Erfindung zerlegt das
Verfahren das Dokument, um ein Seitenlayout für die
zugrundeliegenden Seiten zu bestimmen. Somit können
verschiedene Verfahren auf die verschiedenen Teile
einer Seite angewandt werden. Ein geometrisches
Seitenlayout eines Dokuments ist eine Spezifikation der
Geometrie der maximalen homogenen Bereiche und ihrer
Klassifikation (Text, Tabelle, Bild, Zeichnung usw.).
Die Analyse des logischen Seitenlayouts umfaßt das
Bestimmen eines Seitentyps, das Zuweisen von
Funktionsetiketten, wie zum Beispiel Titel, Anmerkung,
Fußnote, Bildunterschrift usw. auf jeden Block der
Seite, das Bestimmen der Beziehungen der Blöcke und das
Anordnen der Textblöcke gemäß einer Lesereihenfolge.
OCR hat bei vorbekannten Systemen zur Bestimmung des
Dokumentinhalts eine wichtige Rolle gespielt.
Dementsprechend wurde die meiste Forschungs
aufmerksamkeit OCR gewidmet. Da die Leistung des
Dokumentverständnissystems als Ganzes von der vor der
OCR stattfindenden Vorverarbeitung abhängt, spielt in
diesem Bereich die Seitensegmentierung eine wichtige
Rolle.
Die vorliegende Erfindung analysiert das Dokument und
extrahiert Informationen aus dem Text und/oder den
Figuren, die sich an einer beliebigen Stelle in dem
Dokument befinden können. Das Verfahren bestimmt den
Kontext, in dem diese Hotspots (z. B. interessierende
Objekte oder Textsegmente) erscheinen. Weiterhin
sichert das Verfahren diese Informationen auf eine
strukturierte Weise, die einer vordefinierten Syntax
oder Grammatik folgt, durch die sich das Verfahren auf
diese Informationen beziehen kann, während automatische
Hyperlinks zwischen verschiedenen Dokumenten und
Medientypen erzeugt werden.
Fig. 1 zeigt ein Flußdiagramm der Hauptphasen in dem
Prozeß der grafischen Erkennung. Die Eingabe für das
System umfaßt eine PDF-Datei 101. Das Verfahren parst
die Datei zu Bereichen von Text und Nicht-Text 102. Die
Text- und Nicht-Textbereiche werden analysiert, um
Struktur- und andere relevante Informationen 103 zu
extrahieren. Das Verfahren bestimmt Text in normalen
Textblöcken 104 sowie Text in den (etwaigen) Bildern
105-108, wie zum Beispiel Elementnummern in einer
technischen Zeichnung. Das Verfahren unterscheidet
zwischen Farbbildern und Schwarzweißbildern 105 vor dem
Extrahieren von Text aus einem Bild. Diese Textsegmente
werden zur Erzeugung von Hyperlinks zu anderen
Dokumenten 109-110, zum Beispiel einer anderen PDF-
Datei oder beliebigen anderen Medientypen, wie zum
Beispiel Audio, Video usw. verwendet.
Um Anwendungsprogrammierer dabei zu unterstützen,
Wörter aus PDF-Dateien zu extrahieren, liefert Adobe
Systems ein Software-Development-Kit (SDK), das über
die Anwendungsprogrammiererschnittstelle (API) von
Acrobat®-Viewer-Programmen Zugang zu dem zugrunde
liegenden portierbaren Dokumentmodell gibt, das das
Viewer-Programm im Speicher hält. Das SDK ist in der
Lage, eine Suche nach PDF-Dokumenten durchzuführen. Für
die PDF-Dokumente, die direkt aus einem Texteditor, wie
zum Beispiel Word von Microsoft oder FrameMaker® von
Adobe, erzeugt werden, funktioniert dies recht gut, bei
eingescannten Dokumenten kann sich die Leistung jedoch
wesentlich verschlechtern. Außerdem kann das SDK bei
Dokumenten mit Doppelspalten fehleranfällig sein. SDK
wurde im wesentlichen für Dokumente entworfen, die mit
einem Texteditor erzeugt wurden. Deshalb war die
Leistung mit durch andere Mittel erzeugten Dokumenten
keine wichtige Frage. Die vorliegende Erfindung
verwendet eine alternative Strategie für eingescannte
Dokumente.
Gemäß einer Ausführungsform der vorliegenden Erfindung
extrahiert das Verfahren Wörter zusammen mit ihrer
Position in dem Dokument und dem Stil, mit dem sie
wiedergegeben werden. Das Verfahren bestimmt nicht nur,
ob eine Seite ein bestimmtes Wort enthält oder nicht,
sondern bestimmt auch seine Position und seinen
Kontext, so daß automatisch auf der Grundlage des
Inhalts ein Link von der Position zu denselben Medien
oder einem anderen erzeugt werden kann.
Mit Bezug auf Fig. 2 extrahiert 202 das Verfahren Text,
die Koordinaten des Texts und den Textstil aus einer
PDF-Datei 201. Das Verfahren analysiert Parameter der
PDF-Datei, um den Kontext des Texts zu bestimmen 203-205.
Zu den Parametern gehören u. a. Absätze 203,
Überschriften 204 und Unterüberschriften 205. Das
Verfahren extrahiert weiterhin Text und zugeordnete
Randboxen und Seitennummern. Die Parameter einer
Randbox werden aus den extrahierten Koordinaten
bestimmt. Das Verfahren ordnet Kontext Text 206 zu.
Wenn zum Beispiel die Randbox horizontal mit mehreren
anderen Wörtern ausgerichtet ist, z. B. wenn der Text
auf ähnlichen Höhen erscheint und Teil einer größeren
Gruppe ist, dann bestimmt das Verfahren diesen Text als
Teil des normalen Texts (z. B. eines Absatzes) für die
Seite, im Gegensatz zum Beispiel zu einer Überschrift.
Das Verfahren bestimmt die Median-Fontgröße für einen
Teil des Textdokuments und führt einen kontext
abhängigen Mustervergleich 207 durch. Wenn die
Fontgröße für einen Teil des Texts größer als der
Median ist und wenn der Textteil klein ist, z. B. sich
der Text nicht um mehr als eine einzige Zeile
erstreckt, bestimmt das Verfahren, daß dies Teil einer
Überschrift ist. Bei Bestimmung einer Überschrift prüft
das Verfahren die Textebene, z. B. ob sie zu einer
Kapitelüberschrift, einer Abschnittsüberschrift, einem
Unterabschnitt usw. gehört. Die Textebene kann auch aus
den verwendeten relativen Fontgrößen und Offsets von
dem rechten und linken Rand, falls vorhanden, bestimmt
werden.
Nachdem das Verfahren alle Textinformationen bezüglich
der Organisation des Dokuments bestimmt hat, verwendet
das Verfahren Organisationsinformationen zum wählbaren
Erzeugen von verankerbaren Informationseinheiten (AIUs)
208-209 oder Hotspots. Das Verfahren erzeugt
automatisch oder halbautomatisch diese Hotspots auf
eine kontextabhängige nichtredundante Weise auf der
Grundlage der Organisationsinformationen.
Die vorliegende Erfindung liefert ein Verfahren zum
Extrahieren von Bildern. Dieses Problem wird dadurch
schwierig, daß Text möglicherweise nicht von Polylinien
unterschieden werden kann, die die zugrundeliegenden
Linienzeichnungen bilden. Obwohl das Entwickeln eines
allgemeinen Verfahrens; das für alle Arten von
Linienzeichnungsbildern funktionieren würde, schwierig
ist, verwendet die vorliegende Erfindung zugrunde
liegende Strukturen der betreffenden Dokumente. Die
vorliegende Erfindung findet Bilder gemäß der Geometrie
und Länge der Textzeichenketten. Diese lokalisierten
Bereiche werden mit OCR-Software analysiert, um den
Textinhalt zu extrahieren.
Mit Bezug auf Fig. 3a und 3b extrahiert das Verfahren
Bilder und ihre Position 302 aus einer PDF-Datei 301.
In PDF-Dateien kähnen verschiedene Arten von Bildern
codiert werden, darunter Schwarzweiß-, Graustufen- und
Farbbilder. Interessierende Objekte können in
beliebigen dieser Bilder codiert werden. Zum Beispiel
kann ein Schwarzweißbild dazu dienen, eine CAD-
Zeichnung (computer aided design) zu codieren. CAD-
Bilder können zum Beispiel Diagramme vordefinierter
Objekte oder Textsegmente enthalten, die sich auf
wichtige Informationen, wie zum Beispiel Maschinen
teile, beziehen können. Andere Bilder sind zum Beispiel
Beschreibungen von Maschinenteilen, insbesondere, wenn
die Dokumente von technischer Natur sind.
Bei PDF wird ein Bild als Xobjekt bezeichnet, dessen
Subtyp Image ist. Bilder ermöglichen einen Inhaltsstrom
zur Spezifikation eines abgetasteten Bildes oder einer
Bildmaske. Das Verfahren bestimmt den Typ des Bildes
303. PDF ermöglicht Bildmasken, z. B. 1-Bit-, 2-Bit-, 4-
Bit- und 8-Bit-Graustufenbilder und Farbbilder mit 1,
2, 4 oder 8 Bit pro Komponente. Eine Bildmaske, wie zum
Beispiel ein externes Bild, kann in die PDF-Datei
eingebettet werden. Für eingebettete Bilder bestimmt
das Verfahren einen Bezug auf dieses Bild und auf der
Grundlage des Bildtyps und des Dateiformats kann ein
entsprechendes Decodierungsverfahren verwendet werden,
um das Bild zu extrahieren und es zu verarbeiten 304.
Wenn es sich um ein abgetastetes Bild handelt, dann
werden die Bildpixelwerte jedoch direkt in der PDF-
Datei auf bestimmte codierte Weise gespeichert. Die
Bildpixelwerte können zunächst decodiert und dann
verarbeitet werden 305.
Das Verfahren vereinfacht die Bilder, um
Textzeichenketten zu extrahieren 306. Die
Graustufenbilder werden durch Schwellenverfahren in
Schwarzweißbilder umgesetzt 307. Das Verfahren sucht
nach Textzeichenketten entweder in Graustufen- oder
Schwarzweißbildern. Wenn das Bild nicht farbig ist,
wird es somit auf Schwarzweiß reduziert.
Für die Schwarzweißbilder verschmiert das Verfahren das
Bild 308. In einer willkürlichen Kette von Schwarzweiß-
Pixeln ersetzt das Verfahren weiße Pixel durch schwarze
Pixel, wenn die Anzahl angrenzender weißer Pixel
zwischen zwei schwarzen Pixeln kleiner als eine
vorbestimmte Konstante ist. Diese Konstante hängt mit
der Fontgröße zusammen und kann vom Benutzer definiert
werden. Diese Operation wird hauptsächlich in der
horizontalen Richtung eingesetzt. Die Operation
schließt die Lücken, die zwischen verschiedenen
Buchstaben in einem Wort bestehen, und ein Wort auf
einen rechteckigen Block schwarzer Pixel reduzieren
können. Sie wirkt sich jedoch auch auf
Linienzeichnungen auf ähnliche Weise aus. Der
Unterschied besteht hier darin, daß durch die
Beschaffenheit ihrer Erscheinung Textwörter nach der
Operation rechteckig mit einer bestimmten Höhe (für
horizontalen Text) und Breite ausschauen (unter der
Annahme, daß die in einer technischen Zeichnung
erscheinenden Teilenummern wahrscheinlich eine
bestimmte Länge aufweisen). Die Linienzeichnungen
erzeugen jedoch unregelmäßige Muster, durch die sie von
dem zugeordneten Text unterscheidbar werden.
Das Verfahren säubert das resultierende Bild durch
Verwendung einer Median-Filterung 309 zur Entfernung
kleiner Inseln oder Gruppen von schwarzen Pixeln. Das
Verfahren gruppiert die horizontalen Läufe schwarzer
Pixel zu Gruppen, die durch weiße Zwischenräume
getrennt werden, und ordnet ihnen Etiketten zu 310. Das
Verfahren berechnet eine Randbox 311 für jede Gruppe
und berechnet Merkmale wie zum Beispiel Breite, Höhe,
Seitenverhältnis und Pixeldichte, z. B. das Verhältnis
der Anzahl schwarzer Pixel zu der Fläche der Randbox.
Das Verfahren implementiert Regeln 312 zur Bestimmung,
ob sich in der Randbox Text befindet, und falls dies so
ist, ob der Text interessiert. Durch eine
Schwellentechnik schließt das Verfahren Bereiche aus,
die entweder zu groß oder zu klein sind. Das Verfahren
sucht nach einem Wort oder zwei, die eine Kennung
bilden, wie zum Beispiel eine Teilenummer oder einen
Teilenamen. Das Verfahren schließt außerdem Bereiche
aus, deren Beschaffenheit, wie durch das
Seitenverhältnis Breite/Höhe definiert, nicht recht
eckig sondern quadratisch ist, da Wörter normalerweise
mehrere Zeichen lang sind und eine Höhe von einem
Zeichen aufweisen. Das Verfahren schließt außerdem
Bereiche aus, die relativ leer sind, z. B. schwarze
Pixel, die auf ziemlich unregelmäßge nicht rechteckige
Weise verbunden sind. Dies ist eine Eigenschaft von
Limienzeichnungen und ist nur unwahrscheinlich
Textzeichenketten zugeordnet. Die Grenzen in dem obigen
sind bereichsabhängig, und der Benutzer ist in der
Lage, diese auf der Grundlage der Eigenschaften des
verarbeiteten Dokuments zu wählen und zu modifizieren.
Nach der Identifizierung der plausiblen Textbereiche
verwendet das Verfahren ein OCR-Toolkit 313 zur
Identifizierung des ASCII-Texts, der die oben
identifizierten plausiblen Bereiche charakterisiert.
Nachdem das Verfahren den Text bestimmt hat, dient ein
Mustervergleichsverfahren 314 zur Korrektur von
Fehlern, die während der Erkennung durch die OCR
verursacht worden sein können. Zum Beispiel könnte die
OCR falscherweise den Buchstaben "o" durch die Ziffer
"0" ersetzt haben. Wenn dem Verfahren der Kontext
bewußt ist, können solche Fehler korrigiert werden.
Das Verfahren behält interessierende Wörter und/oder
Phrasen und sichert sie in einer AIU-Datei. Wenn das
Verfahren den interessierenden Text extrahiert und
gesichert hat, werden in den Bildern 316 etwaige
Objektteile identifiziert.
Um die Geschwindigkeit des Verfahrens zu vergrößern,
werden die Nicht-Textbereiche des Bildes zu Blöcken
geparst. Ein Histogramm der Pixel-Grauwert- oder
Farbwerte in diesen Blöcken 317-318 wird dann
analysiert. Bei einem Farbbild analysiert das Verfahren
ein Histogramm für das gesamte Bild.
Das Verfahren implementiert Schablonen von Objekten,
nach denen in dem Bild gesucht wird. Das Verfahren
parst die Schablone zu Blöcken und bestimmt ein
Histogramm für die Blöcke. Das Verfahren bestimmt
Positionen in dem ursprünglichen Bild von Blöcken, die
eine ähnliche Histogramm-Signatur wie die der Schablone
aufweisen. Wenn eine Übereinstimmung bestimmt wird 319,
führt das Verfahren eine sorgfältigere Pixelkorrelation
320 durch, um die genaue Position zu bestimmen.
Das Verfahren kann mit einer niedrigen Auflösung
beginnen, zum Beispiel unter Verwendung von 32 × 32-
Blöcken. Wenn eine Übereinstimmung gefunden wird, kann
das Verfahren mit einer höheren Auflösung, z. B.
16 × 16, neu iterieren. Nach der Neuiteration auf einen
Maßstab von zum Beispiel 8 × 8, korreliert das
Verfahren die Schablone mit dem Original, um eine
Position einer wünschenswerten Übereinstimmung zu
finden. Vor der Durchführung einer Korrelation
binärisiert das Verfahren jedoch das Bild 321, wenn es
nicht bereits in binärer Form vorliegt, durch Berechnen
von Rändern. Für das binärisierte Bild führt das
Verfahren eine Korrelation für die Ränder durch. Somit
kann das Verfahren die für die Verarbeitung eines
Bildes benötigte Verarbeitungsmenge reduzieren.
Übereinstimmungen werden mit einer Schwelle 323
bestimmt, die auf 0,6 × Ne gesetzt werden kann, wobei Ne
die Anzahl von Randpunkten in der Schablone ist. Das
Verfahren bestimmt die Informationen, die sowohl für
die Text- als auch die Nicht-Textteile der PDF-Dateien
benötigt werden, und die zusammengestellten
Informationen werden unter Verwendung einer SGML-
Sprache (Standard Generalized Markup Language) in AIU-
Dateien 324-325 gespeichert. Mit SGML-Syntax kann man
Hyperlinks zu anderen Teilen desselben Dokuments oder
zu anderen Dokumenten oder unähnlichen Medientypen
erzeugen.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird die Struktur von PDF-Dokumenten in SGML definiert.
Die Strukturinformationen können zur Erfassung der aus
einem PDF extrahierten Informationen verwendet werden.
Die aus dem PDF extrahierten Objekte werden als
verankerbare Informationseinheiten (AIUs) bezeichnet.
Da aus einefft PDF-Dokument extrahierte Informationen als
eine Instanz der PDF-AIU-Dokumenttypendefinition (DTD)
dargestellt werden und somit gut strukturiert sind,
kann das Verfahren automatisch Hyperlinks zwischen den
PDF-Dokumenten und anderen Arten von Dokumenten
erzeugen. Wenn der Benutzer während des Browsens das
Objekt anklickt, kann deshalb das entsprechende Link
navigiert werden, um das gewünschte Ziel zu erreichen.
Nach der Verarbeitung wird jede PDF-Datei einer AIU-
Datei zugeordnet, die aus der PDF-Datei extrahierte
relevante Informationen enthält. Die AIU-Datei wird auf
hierarchische Weise folgendermaßen definiert:
An der Wurzel umfaßt die AIUDoc-Definition die Kopf-,
Fuß- und die extrahierten Informationen in dem Feld
PdfDocX.
Die Definition des DocHeader wird gegeben als:
und die Felder in dem PdfDocX werden gegeben durch
(diese Felder werden später definiert):
Das Feld PdfSeg, das die Abschnitte charakterisiert,
wird definiert als:
während die Felder PdfSeg2, die die Segmente in diesem
Dokument sind, folgendermaßen definiert werden:
die AIUs werden mit den folgenden Feldern definiert:
Eine AIU-Datei ist somit eine Folge von einem oder
mehreren parsbaren Zeichendatenelementen. In dem
Beispiel umfassen die Zeichendaten eine Kette von
ASCII-Zeichen und -Nummern. Während die verschiedenen
für PDF-ATUs relevanten Attribute oben aufgelistet
wurden, können zusätzliche Attribute für AIUs relevant
sein, die andere Medientypen betreffen. Wie bereits
erwähnt, strukturiert das Verfahren das PDF-Dokument
auf hierarchische Weise. An der Wurzel befindet sich
das gesamte Dokument. Das Dokument wird in
Teildokumente zerlegt. Die AIU-Datei beginnt mit einer
Beschreibung des Typs des zugrundeliegenden Medientyps,
in diesem Fall PDF. Der Dokumentkopf enthält vier
verschiedene Felder, darunter den zugrundeliegenden
PDF-Dateinamen, eine eindeutige Kennung für die gesamte
PDF-Datei, eine Dokument-Typendefinition, die den
Kontext der PDF-Datei erläutert, und eine spezifischere
Dokumentbeschreibung, die den Inhalt der PDF-Datei
erläutert.
Die aus der PDF-Datei extrahierten Informationen werden
in der PDFDocX-Struktur gespeichert. Die PDFDocX-
Struktur enthält eine eindeutige Kennung, die aus der
Kennung der PDF-Datei selbst abgeleitet wird. Das PDF-
Dokument wird auf hierarchische Weise unter Verwendung
von Teildokumenten und Segmenten organisiert. Die
Segmente weisen die folgenden Attribute auf. Wiederum
gibt es eine eindeutige Kennung für jedes Segment. Die
Anfangs- und Endpositionen dieser Segmente definieren
das Ausmaß dieser Abschnitte. Auf der Grundlage der
Anforderungen und Größe des Dokuments können auch
weitere Attribute verwendet werden.
Die PDF-AIUs enthalten eine eindeutige Kennung. Die
PDF-AIUs können die folgenden Typen aufweisen:
Rechteck, Ellipse und Polygon. Jede AIU hat außerdem
einen eindeutigen Namen. Das Feld BoundaryCoords
beschreibt die Koordinaten des zugrundeliegenden
interessierenden Objekts und definiert die Randbox. Das
Seitenfeld beschreibt die Seitenposition des
zugrundeliegenden Dokuments. Im Fall von Rechtecken und
Ellipsen werden die obere linke und untere rechte Ecke
der Randbox definiert. Im Fall eines Polygons werden
alle Knoten definiert.
Es folgt ein Beispiel für eine PDFAIU-Datei. Die Link-
Definition wird in dem folgenden Teilabschnitt
beschrieben.
Das Erzeugen von Hyperlinks für die PDF-AIUs kann
manuell oder auf automatisierte Weise geschehen.
Manuelle Links können während der oben beschriebenen
AIU-Umgrenzungsphase eingefügt werden. Da die aus PDF
extrahierten Informationen bei einer Ausführungsform
der vorliegenden Erfindung jedoch in wohlstrukturierten
AIU-Dateien gespeichert werden, enthält das Verfahren
einen automatischen Hyperlinker zum automatischen
Erstellen von Hyperlinks für PDF-AIUs zu allen anderen
Typen von Dokumenten auf der Grundlage von Hyperlink-
Spezifikationen. Das heißt, der Hyperlinker verarbeitet
Link-Spezifikationen, führt an den Inhalten und
Strukturen der Dokumente einen Mustervergleich durch
und richtet Links zwischen Quellen und Zielen ein.
Außerdem ist es wichtig, wie die Link-Informationen in
den AIU-Dateien codiert werden. Jedes der codierten
Objekte kann potentiell ein Link aufweisen. Da die
SGML-Struktur für die AIU-Dateien verwendet wurde und
Links Entitäten in dieser Datei sind, werden Links auch
unter Verwendung einer ähnlichen SGML-Struktur
definiert. Die Definition und die Felder werden
nachfolgend angegeben:
Type definiert den Typ des Ziels, z. B. wenn es sich um
Text oder Bild oder Video usw. handelt. Focus definiert
den Text, der am Link-Ziel hervorgehoben wird. Book
stellt das Buch dar, von dem Ziel Teil ist. Da die
Hauptanwendung ein Handbuch mit Hyperlinks ist, werden
sie in dem Beispiel als ein hierarchischer Baum
organisiert, wobei jedes Handbuch als ein Buch
dargestellt wird. Linkend, das wichtigste Attribut,
enthält die Zielinformationen. Linkld ist ein Index zu
der Datenbank, wenn das Ziel darauf zeigt. LinkruleId
hat angezeigt, welche Regel dieses Link erzeugt hat.
SubType ähnelt der Type-Definition in der obigen AIU-
Spezifikation. Labels gibt eine Beschreibung des Link-
Ziels. Es kann auch weitere Attribute geben.
Im folgenden wird eine Instanz einer AIU-Datei mit
Hyperlinks bereitgestellt. Das heißt, Link-Elemente
können manuell oder automatisch PDF-AIUs hinzugefügt
werden, die während des Abspielens mit Hyperlinks zu
ihren Zielen versehen werden sollen.
Die SGML-Dokumente (einschließlich der AIU-Dateien)
werden mit dem SGML-Indexer vorindiziert. Dies umfaßt
eine Wörterbuchauflistung von jedem SGML-Element in der
Reihenfolge, in der sie in der Dokumentation
erscheinen, und einen Index in dieses Wörterbuch. Auf
der Grundlage der benutzerdefinierten Link-
Spezifikationen werden Links unter Verwendung eines
Mustervergleichs an diesen Wörterbuchdateien erzeugt.
Für die PDF-AIUs können Links zu und von diesen auf
diese Weise erzeugt werden. Der Hauptpunkt, der
bezüglich des Hyperlinkers zu beachten ist, besteht
darin, daß das Verfahren in der Lage ist, diese
Maschinerie in dem PDFAIU-Erstellungssystem zu
verwenden, indem es in der Lage ist, die PDF-
Informationen mit Hilfe der AIU-Spezifikationssprache
wie bereits erläutert zu strukturieren. Dadurch kann
das Verfahren außerdem ein Hyperlink-Managementsystem
implementieren, das Link-Regeln inkrementell
aktualisieren kann. Die Link-Manager-Software, die
diese Link-Datenbank zum Verfolgen von Link-
Regeländerungen durch Verwendung von Zeitstempeln
verwendet, tut dies. Das inkrementelle Erstellen von
Hyperlinks erfolgt entweder durch Verändern bestehender
Link-Spezifikationen oder durch Hinzufügen bestimmter
zusätzlicher Link-Spezifikationen. Beim Hinzufügen
< neuer Link-Spezifikationen führt der Hyperlinker die
neue Link-Spezifikation an allen Dokumenten aus, fügt
neue Links hinzu, ohne die alten zu zerstören. Wenn ein
Link auf der Grundlage der Id des alten Links überholt
wird, werden die alten Links entfernt. Eine ähnliche
Prozedur wird beim Hinzufügen neuer Links verwendet.
Nach der Erstellung der Hyperlinks ist es wichtig, in
der Lage zu sein, die gewünschten Funktionen beim
Betrachten zu erhalten. Die derzeitige Implementierung
modifiziert den Adope Acrobat® Reader™ und verwendet
eine spezielle Software zur Erzielung der Kommunikation
zwischen Prozessen über einen Link-Manager. Wenn dem
Viewer-Programm dann ein Befehl gegeben wird, eine
bestimmte PDF-Datei zu laden, schaut es während des
Ladens außerdem nach, ob eine AIU-Datei für diese Datei
verfügbar ist. Wenn dies der Fall ist, wird diese
ebenfalls zusammen mit der ursprünglichen Datei
geladen. Für jeden Eintrag wird in der AIU-Datei ein
Rand um das interessierende Objekt gezeichnet. Wenn der
Benutzer ein beliebiges der Objekte anklickt,
kommuniziert das Viewer-Programm mit dem Link-Manager
mit der entsprechenden Link-Kennung. Der Link-Manager
führt dann das Link-Ziel aus. In einer Multimedia-
Dokumentationsumgebung bedeutet dies häufig ein
Springen zu einem bestimmten Punkt des Texts oder das
Zeigen eines detaillierten Bildes des in Frage
stehenden Objektes. In diesem Fall springt der SGML-
Browser zu diesem Punkt in dem SGML-Dokument.
Fig. 4 zeigt eine grafische Benutzerschnittstellen
anzeige, die die Verarbeitung einer Multimedia-Datei
zur Bereitstellung von Informationen zur Verwendung bei
der Navigation durch Multimedia-Dateiinhalte
unterstützt. Die Benutzerauswahl des Symbols 400
gestattet dem Benutzer die Einleitung der Erzeugung
einer Navigationsdatei, die das Erstellen von Links von
Eingangsdateielementen zu externen Dokumenten durch
Parsen und Sortieren von Text- und Bildinhalten zur
Identifizierung von Text zur Integration in eine
Navigationsdatei unterstützt. Als Reaktion auf die
Benutzerauswahl des Symbols 400 werden außerdem
Elemente in Menüs aktiviert, die bei der Auswahl eines
Elements der Toolbars 405 und 410 durch den Benutzer
erzeugt werden. Genauer gesagt wird als Reaktion auf
die Benutzerauswahl des Symbols 415 ein Menü erzeugt,
das dem Benutzer die Auswahl einer zu verarbeitenden
Eingangsdatei und eines zu verarbeitenden Formats
ermöglicht.
Nach der Beschreibung von Ausführungsformen für ein
Verfahren zum Extrahieren verankerbarer Informations
einheiten aus PDF-Dateien soll bemerkt werden, daß
Fachleute im Hinblick auf die obigen Lehren
Modifikationen und Varianten herstellen können. Es
versteht sich deshalb, daß an den offengelegten
konkreten Ausführungsformen der Erfindung Änderungen
vorgenommen werden können, die in dem Schutzumfang und
Gedanken der Erfindung liegen, der durch die angefügten
Ansprüche definiert wird. Nach dieser Beschreibung der
Erfindung mit den von den Patentgesetzen geforderten
Einzelheiten und Genauigkeiten wird der Schutzumfang
des Patents nunmehr in den angefügten Ansprüchen
definiert.
101
Eingangs-PDF-Datei
102
Textunterscheidung
Textsegmente
Bildsegmente
Textsegmente
Bildsegmente
104
Textverarbeitung und Mustervergleich
105
Farbe?
Farbbilder
Schwarzweiß- und Graustufenbilder
Farbbilder
Schwarzweiß- und Graustufenbilder
106
Text extrahieren
108
Bildverarbeitung und Objekterkennung
107
Textverarbeitung und Mustervergleich
109
AIU-Datei erzeugen
110
AIU-Datei
201
Eingangs-PDF-Datei
202
gesamten Text und ihre Position extrahieren
203
Ist dieser Text Teil eines normalen Absatzes?
No = Nein, Yes = Ja
No = Nein, Yes = Ja
204
Ist dieser Textteil Teil einer Überschrift?
205
Ist dieser Text Teil einer Unterüberschrift?
206
Kontext dem Text zuordnen
207
kontextabhängiger Mustervergleich
208
AIU-Datei erzeugen
209
teilweise AIU-Datei
301
Eingangs-PDF-Datei
302
alle Bilder und ihre Position extrahieren
303
Abgetastet/Maske?
mask = Maske
sampled = abgetastet
mask = Maske
sampled = abgetastet
304
externes Bild laden
305
Bildpixel abrufen
306
Schwarzweiß/Graustufe/Farbe?
B S/W
B
Grayscale Graustufe
B S/W
B
Grayscale Graustufe
307
Binärisieren
308
Verschmieren
309
Median-Filterung
310
Etikettierung
etikettiertes Bild
gefärbtes Bild
gefärbtes Bild
311
Randbox berechnen
317
in Blöcke aufteilen und Histogramm berechnen
318
in Blöcke aufteilen und Histogramm berechnen
312
Übereinstimmungsregeln erfüllt?
319
Histogramm vergleichen
313
OCR durchführen
320
Suche verfeinern
314
Musterkorrektur
321
Binärisieren
315
Mustervergleich
322
Korrelation
316
Nicht-Textbereich berechnen
323
beste Übereinstimmung finden
ursprüngliches S/W/Graustufenbild
ursprüngliches S/W/Graustufenbild
324
AIU-Datei erzeugen
325
teilweise AIU-Datei
Claims (28)
1. System zum Verarbeiten einer Multimedia-Datei zur
Bereitstellung von Informationen zur Unterstützung der
Benutzernavigation durch Multimedia-Dateiinhalte,
umfassend:
einen Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer Datei;
einen Bildprozessor zum Verarbeiten der identifizierten Bildinhalte, um eingebettete Textinhalte zu identifizieren;
einen Textsortierer zum Parsen des identifizierten Texts und des identifizierten eingebetteten Texts, um Textelemente gemäß vorbestimmten Sortierregeln zu finden; und
Speicher zum Speichern einer Navigationsdatei, die die Textelemente enthält.
einen Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer Datei;
einen Bildprozessor zum Verarbeiten der identifizierten Bildinhalte, um eingebettete Textinhalte zu identifizieren;
einen Textsortierer zum Parsen des identifizierten Texts und des identifizierten eingebetteten Texts, um Textelemente gemäß vorbestimmten Sortierregeln zu finden; und
Speicher zum Speichern einer Navigationsdatei, die die Textelemente enthält.
2. System nach Anspruch 1, wobei die Navigationsdatei
Links zu mindestens einem internen Dokument-Objekt
aufweist.
3. System nach Anspruch 1, wobei die Navigationsdatei
Links zu mindestens einem externen Dokument-Objekt
aufweist.
4. System nach Anspruch 1, wobei der Bildprozessor
einen Schwarzweißbildprozessor umfaßt, der folgendes
umfaßt:
eine Pixelverschmierkomponente, die Text zu einem rechteckigen Pixelblock reduziert; und
eine Bildfilterkomponente zum Säubern eines verschmierten Bildes.
eine Pixelverschmierkomponente, die Text zu einem rechteckigen Pixelblock reduziert; und
eine Bildfilterkomponente zum Säubern eines verschmierten Bildes.
5. System nach Anspruch 1, wobei der Inhalts-Parser
Textextrahierungsregeln anwendet, um Text und eine
Dokumentstruktur zu identifizieren, wobei die Dokument
struktur einen Kontext für identifizierten Text
definiert.
6. System nach Anspruch 1, wobei der Inhalts-Parser
vordefinierte hierarchische Regeln zur Bestimmung einer
Ebene von identifiziertem Text anwendet.
7. System nach Anspruch 1, wobei der Bildprozessor
Objektschablonen anwendet, um einen eingebetteten Text
zu identifizieren.
8. System nach Anspruch 1, wobei das System während
eines Textidentifizierungsprozesses eine Suchauflösung
verfeinert, um eine Position des eingebetteten Texts in
einem Bild zu bestimmen.
9. System nach Anspruch 1, wobei identifizierter Text
Hyperlinks umfaßt.
10. Grafisches Benutzerschnittstellensystem zur
Unterstützung der Verarbeitung einer Multimedia-Datei
zur Bereitstellung von Informationen, die die
Benutzernavigation durch Multimedia-Dateiinhalte unter
stützen, umfassend:
einen Menügenerator zum Erzeugen von:
einem oder mehreren Menüs, die die Benutzerauswahl einer zu verarbeitenden Eingangsdatei und eines zu verarbeitenden Formats ermöglichen; und
ein Symbol, das die Benutzereinleitung der Erzeugung einer Navigationsdatei ermöglicht, die das Erstellen von Links für Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten unterstützt, um Text zur Integration in eine Navigationsdatei zu identifizieren.
einen Menügenerator zum Erzeugen von:
einem oder mehreren Menüs, die die Benutzerauswahl einer zu verarbeitenden Eingangsdatei und eines zu verarbeitenden Formats ermöglichen; und
ein Symbol, das die Benutzereinleitung der Erzeugung einer Navigationsdatei ermöglicht, die das Erstellen von Links für Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten unterstützt, um Text zur Integration in eine Navigationsdatei zu identifizieren.
11. System nach Anspruch 10, wobei identifizierter Text
Hyperlinks umfaßt.
12. System nach Anspruch 10, wobei die Navigationsdatei
weiterhin Links zu mindestens einem internen Dokument-
Objekt umfaßt.
13. Verfahren zum Erzeugen einer verankerbaren
Informationseinheit in einem PDF-Dokument, mit den
folgenden Schritten:
Extrahieren eines Textsegments aus dem PDF- Dokument;
Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer kontextabhängigen hierarchischen Struktur ausgewählt wird; und
Definieren des Textsegments als eine verankerbare Informationseinheit gemäß dem Kontext.
Extrahieren eines Textsegments aus dem PDF- Dokument;
Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer kontextabhängigen hierarchischen Struktur ausgewählt wird; und
Definieren des Textsegments als eine verankerbare Informationseinheit gemäß dem Kontext.
14. Verfahren nach Anspruch 13, wobei das PDF-Dokument
eines oder mehrere Textobjekte, einschließlich eines
oder mehrerer Nicht-Textobjekte enthält, wobei die
Objekte Textsegmente enthalten.
15. Verfahren nach Anspruch 13, wobei der Schritt des
Bestimmens des Kontexts weiterhin die folgenden
Schritte umfaßt:
Vergleichen des Textsegments mit mehreren bekannten Mustern in dem PDF-Dokument; und
Bestimmen des Kontexts bei Bestimmung einer Übereinstimmung zwischen dem Textsegment und einem bekannten Muster des PDF-Dokuments.
Vergleichen des Textsegments mit mehreren bekannten Mustern in dem PDF-Dokument; und
Bestimmen des Kontexts bei Bestimmung einer Übereinstimmung zwischen dem Textsegment und einem bekannten Muster des PDF-Dokuments.
16. Verfahren nach Anspruch 13, wobei der Schritt des
Extrahierens von Text weiterhin die folgenden Schritte
umfaßt:
Extrahieren von Text aus einem zugrundeliegenden Bild des PDF-Dokuments;
Bestimmen eines Typs für das Bild, wobei der Typ ein Schwarzweißbild, ein Graustufenbild oder ein Farbbild ist; und
Verarbeiten des Bilds gemäß dem Typ.
Extrahieren von Text aus einem zugrundeliegenden Bild des PDF-Dokuments;
Bestimmen eines Typs für das Bild, wobei der Typ ein Schwarzweißbild, ein Graustufenbild oder ein Farbbild ist; und
Verarbeiten des Bilds gemäß dem Typ.
17. Verfahren nach Anspruch 13, wobei das PDF-Dokument
eine bekannte kontextabhängige hierarchische Struktur
enthält.
18. Verfahren nach Anspruch 17, wobei die
kontextabhängige hierarchische Struktur, einschließlich
der verankerbaren Informationseinheit, durchsuchbar
ist.
19. Verfahren nach Anspruch 13, wobei der Kontext eine
Position für das extrahierte Textsegment enthält.
20. Verfahren nach Anspruch 13, wobei der Schritt des
Bestimmens eines Kontexts weiterhin den Schritt des
Bestimmens einer Position und eines Stils des
Textdokuments umfaßt.
21. Verfahren nach Anspruch 13, weiterhin mit dem
Schritt des Speicherns eines extrahierten Textsegments
in einer SGML-Syntax unter Verwendung einer
vordefinierten Grammatik.
22. Verfahren nach Anspruch 13, wobei die verankerbare
Informationseinheit automatisch mit Hyperlinks versehen
wird.
23. Maschinenlesbares Programmspeichergerät, das
greifbar ein Programm von Anweisungen realisiert, die
von der Maschine ausführbar sind, um Verfahrensschritte
zum Erzeugen einer Datei von verankerbaren
Informationseinheiten aus einem PDF-Dokument durchzu
führen, mit den folgenden Verfahrensschritten:
Parsen des PDF-Dokuments zu Textteilen und Nicht- Textteilen;
Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen;
Bestimmen von Text in den Textteilen und Texten der Nicht-Textteile; und
Erstellen von Hyperlinks für mehrere Schlüssel wörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.
Parsen des PDF-Dokuments zu Textteilen und Nicht- Textteilen;
Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen;
Bestimmen von Text in den Textteilen und Texten der Nicht-Textteile; und
Erstellen von Hyperlinks für mehrere Schlüssel wörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.
24. Programmspeichergerät nach Anspruch 23, wobei der
Schritt des Parsens weiterhin den folgenden Schritt
umfaßt:
Unterscheiden von Farbbildinhalt von Schwarzweiß
inhalt.
25. Programmspeichergerät nach Anspruch 23, wobei der
Schritt des Extrahierens weiterhin die folgenden
Schritte umfaßt:
Bestimmen einer Ebene für extrahierte Textteile;
Zuordnen des Kontexts zu dem Text; und
Mustervergleich des extrahierten Texts mit dem PDF-Dokument, um einen Kontext und eine Position zu bestimmen.
Bestimmen einer Ebene für extrahierte Textteile;
Zuordnen des Kontexts zu dem Text; und
Mustervergleich des extrahierten Texts mit dem PDF-Dokument, um einen Kontext und eine Position zu bestimmen.
26. Programmspeichergerät nach Anspruch 25, wobei die
Ebene ein Absatz, eine Überschrift oder eine
Unterüberschrift ist.
27. Programmspeichergerät nach Anspruch 25, wobei der
Schritt des Mustervergleichs weiterhin die folgenden
Schritte umfaßt:
Bestimmen einer Median-Fontgröße für das PDF- Dokument;
Vergleichen einer Fontgröße des extrahierten Texts mit der Median-Fontgröße für das PDF-Dokument; und
Bestimmen eines Kontexts gemäß einer Fontgröße.
Bestimmen einer Median-Fontgröße für das PDF- Dokument;
Vergleichen einer Fontgröße des extrahierten Texts mit der Median-Fontgröße für das PDF-Dokument; und
Bestimmen eines Kontexts gemäß einer Fontgröße.
28. Programmspeichergerät nach Anspruch 23, wobei der
Schritt des Erstellens von Hyperlinks weiterhin den
Schritt des Erzeugens der Datei verankerbarer
Informationseinheiten umfaßt, wobei die mehreren
Schlüsselwörter verankerbare Informationseinheiten
sind.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25629300P | 2000-12-18 | 2000-12-18 | |
US60/256,293 | 2000-12-18 | ||
US09/996,271 US7013309B2 (en) | 2000-12-18 | 2001-11-28 | Method and apparatus for extracting anchorable information units from complex PDF documents |
US09/996,271 | 2001-11-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10162156A1 true DE10162156A1 (de) | 2002-07-25 |
DE10162156B4 DE10162156B4 (de) | 2006-06-29 |
Family
ID=26945263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10162156A Expired - Fee Related DE10162156B4 (de) | 2000-12-18 | 2001-12-17 | Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren |
Country Status (2)
Country | Link |
---|---|
US (1) | US7013309B2 (de) |
DE (1) | DE10162156B4 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007005937A2 (en) | 2005-07-01 | 2007-01-11 | Microsoft Corporation | Grammatical parsing of document visual structures |
WO2012104583A1 (en) | 2011-01-31 | 2012-08-09 | Keywordlogic Limited | System for data extraction and processing |
Families Citing this family (112)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7617240B2 (en) * | 1999-05-04 | 2009-11-10 | Accenture Llp | Component based task handling during claim processing |
US7979382B2 (en) | 1999-05-04 | 2011-07-12 | Accenture Global Services Limited | Component based information linking during claim processing |
US20020124029A1 (en) * | 2001-03-02 | 2002-09-05 | Gwinn John Glen | Method and apparatus for creating, embedding and using a searchable font |
EP1466252B1 (de) * | 2001-12-21 | 2009-01-28 | Kofax Danmark A/S | Verfahren zum transferieren von daten zwischen verschiedenen arten von computersystemen |
AU2003280003A1 (en) | 2002-10-21 | 2004-07-09 | Leslie Spero | System and method for capture, storage and processing of receipts and related data |
US8126742B2 (en) | 2003-05-09 | 2012-02-28 | Accenture Global Services Limited | Automated assignment of insurable events |
US8184305B2 (en) * | 2003-09-05 | 2012-05-22 | Sharp Laboratories Of America, Inc. | PDF image-only dedicated print-flow pipeline structure and processing |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
JP4012140B2 (ja) * | 2003-11-20 | 2007-11-21 | キヤノン株式会社 | 画像処理装置、情報処理装置及びそれらの制御方法、プログラム |
US20050151744A1 (en) * | 2004-01-09 | 2005-07-14 | Amit Chakraborty | Method and apparatus for automated authoring and hyperlinking of VRML documents |
US7386789B2 (en) * | 2004-02-27 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Method for determining logical components of a document |
US20150066895A1 (en) * | 2004-06-18 | 2015-03-05 | Glenbrook Networks | System and method for automatic fact extraction from images of domain-specific documents with further web verification |
US8799401B1 (en) * | 2004-07-08 | 2014-08-05 | Amazon Technologies, Inc. | System and method for providing supplemental information relevant to selected content in media |
US9373029B2 (en) | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US7702673B2 (en) * | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US8856108B2 (en) * | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US9384619B2 (en) * | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US7672543B2 (en) * | 2005-08-23 | 2010-03-02 | Ricoh Co., Ltd. | Triggering applications based on a captured text in a mixed media environment |
US7970171B2 (en) * | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8600989B2 (en) * | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US7587412B2 (en) * | 2005-08-23 | 2009-09-08 | Ricoh Company, Ltd. | Mixed media reality brokerage network and methods of use |
US8276088B2 (en) | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US8086038B2 (en) * | 2007-07-11 | 2011-12-27 | Ricoh Co., Ltd. | Invisible junction features for patch recognition |
US8369655B2 (en) * | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US7551780B2 (en) * | 2005-08-23 | 2009-06-23 | Ricoh Co., Ltd. | System and method for using individualized mixed document |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US7669148B2 (en) * | 2005-08-23 | 2010-02-23 | Ricoh Co., Ltd. | System and methods for portable device for mixed media system |
US8156427B2 (en) * | 2005-08-23 | 2012-04-10 | Ricoh Co. Ltd. | User interface for mixed media reality |
US8949287B2 (en) * | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US7991778B2 (en) * | 2005-08-23 | 2011-08-02 | Ricoh Co., Ltd. | Triggering actions with captured input in a mixed media environment |
US8989431B1 (en) | 2007-07-11 | 2015-03-24 | Ricoh Co., Ltd. | Ad hoc paper-based networking with mixed media reality |
US8195659B2 (en) * | 2005-08-23 | 2012-06-05 | Ricoh Co. Ltd. | Integration and use of mixed media documents |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US9405751B2 (en) * | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US7917554B2 (en) * | 2005-08-23 | 2011-03-29 | Ricoh Co. Ltd. | Visibly-perceptible hot spots in documents |
US8385589B2 (en) * | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US8332401B2 (en) * | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US7639387B2 (en) * | 2005-08-23 | 2009-12-29 | Ricoh Co., Ltd. | Authoring tools using a mixed media environment |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8144921B2 (en) | 2007-07-11 | 2012-03-27 | Ricoh Co., Ltd. | Information retrieval using invisible junctions and geometric constraints |
US7920759B2 (en) * | 2005-08-23 | 2011-04-05 | Ricoh Co. Ltd. | Triggering applications for distributed action execution and use of mixed media recognition as a control input |
US8838591B2 (en) * | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US8184155B2 (en) * | 2007-07-11 | 2012-05-22 | Ricoh Co. Ltd. | Recognition and tracking using invisible junctions |
US9171202B2 (en) * | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US7812986B2 (en) * | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
US8510283B2 (en) * | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US8825682B2 (en) | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US8005831B2 (en) * | 2005-08-23 | 2011-08-23 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment with geographic location information |
US7885955B2 (en) * | 2005-08-23 | 2011-02-08 | Ricoh Co. Ltd. | Shared document annotation |
US8521737B2 (en) * | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US8456654B2 (en) * | 2004-10-14 | 2013-06-04 | Onstream Systems Limited | Process for electronic document redaction |
US7880738B2 (en) * | 2005-07-14 | 2011-02-01 | Molsoft Llc | Structured documents and systems, methods and computer programs for creating, producing and displaying three dimensional objects and other related information in those structured documents |
US8316291B1 (en) * | 2005-07-28 | 2012-11-20 | Adobe Systems Incorporated | Packaging an electronic document and/or a method of displaying the package |
US7769772B2 (en) * | 2005-08-23 | 2010-08-03 | Ricoh Co., Ltd. | Mixed media reality brokerage network with layout-independent recognition |
DE102005052056A1 (de) * | 2005-10-31 | 2007-05-03 | Advanced Micro Devices, Inc., Sunnyvale | Datenanalyse-Visualisierung mit Hyperlink zu externem Inhalt |
US7933786B2 (en) | 2005-11-01 | 2011-04-26 | Accenture Global Services Limited | Collaborative intelligent task processor for insurance claims |
US20070143706A1 (en) * | 2005-12-16 | 2007-06-21 | Sap Ag | Variable-speed scrollbar |
US20070157112A1 (en) * | 2005-12-30 | 2007-07-05 | Peters Johan C | On-demand scrollbar |
US8201076B2 (en) | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US9063952B2 (en) * | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US8073263B2 (en) | 2006-07-31 | 2011-12-06 | Ricoh Co., Ltd. | Multi-classifier selection and monitoring for MMR-based image recognition |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US8676810B2 (en) * | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US9020966B2 (en) * | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
US20080084573A1 (en) * | 2006-10-10 | 2008-04-10 | Yoram Horowitz | System and method for relating unstructured data in portable document format to external structured data |
JP4915219B2 (ja) * | 2006-11-24 | 2012-04-11 | 富士通株式会社 | ハイパーテキスト変換プログラム、方法及び装置 |
KR100912502B1 (ko) * | 2007-07-27 | 2009-08-17 | 한국전자통신연구원 | Pdf 파일을 대상으로 하는 자동 번역 방법 |
US8780381B2 (en) * | 2008-02-07 | 2014-07-15 | Konica Minolta Laboratory U.S.A., Inc. | Methods for printing multiple files as one print job |
US8478769B2 (en) * | 2008-02-22 | 2013-07-02 | Accenture Global Services Limited | Conversational question generation system adapted for an insurance claim processing system |
US8515786B2 (en) * | 2008-02-22 | 2013-08-20 | Accenture Global Services Gmbh | Rule generation system adapted for an insurance claim processing system |
US20090217146A1 (en) * | 2008-02-22 | 2009-08-27 | Eugene Goldfarb | Page navigation generation system for a customizable application |
CN101551859B (zh) * | 2008-03-31 | 2012-01-04 | 夏普株式会社 | 图像辨别装置及图像检索装置 |
US20090307183A1 (en) * | 2008-06-10 | 2009-12-10 | Eric Arno Vigen | System and Method for Transmission of Communications by Unique Definition Identifiers |
US8161023B2 (en) * | 2008-10-13 | 2012-04-17 | Internatioanal Business Machines Corporation | Inserting a PDF shared resource back into a PDF statement |
US8385660B2 (en) * | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
KR101437831B1 (ko) * | 2009-08-21 | 2014-09-05 | 삼성전자주식회사 | 다큐먼트 박스를 웹 페이지로 제공하는 방법 및 이를 수행하는 화상형성장치 |
US8099397B2 (en) * | 2009-08-26 | 2012-01-17 | International Business Machines Corporation | Apparatus, system, and method for improved portable document format (“PDF”) document archiving |
US8922582B2 (en) * | 2009-11-16 | 2014-12-30 | Martin J. Murrett | Text rendering and display using composite bitmap images |
WO2012057891A1 (en) * | 2010-10-26 | 2012-05-03 | Hewlett-Packard Development Company, L.P. | Transformation of a document into interactive media content |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
CN102332002B (zh) * | 2011-07-28 | 2013-11-13 | 深圳市万兴软件有限公司 | 一种将pdf格式文件转换为epub格式的方法及系统 |
US8910039B2 (en) * | 2011-09-09 | 2014-12-09 | Accenture Global Services Limited | File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface |
GB201217334D0 (en) | 2012-09-27 | 2012-11-14 | Univ Swansea | System and method for data extraction and storage |
CN104346615B (zh) * | 2013-08-08 | 2019-02-19 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
US9588971B2 (en) * | 2014-02-03 | 2017-03-07 | Bluebeam Software, Inc. | Generating unique document page identifiers from content within a selected page region |
JP5984880B2 (ja) * | 2014-06-27 | 2016-09-06 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
WO2016061292A1 (en) * | 2014-10-17 | 2016-04-21 | SimonComputing, Inc. | Method and system for imaging documents in mobile applications |
US20160179768A1 (en) * | 2014-12-23 | 2016-06-23 | Constant Contact | Multichannel authoring and content management system |
US10387010B2 (en) | 2016-02-12 | 2019-08-20 | Bluebeam, Inc. | Method of computerized presentation of a document set view for auditing information and managing sets of multiple documents and pages |
JP2017151768A (ja) * | 2016-02-25 | 2017-08-31 | 富士ゼロックス株式会社 | 翻訳プログラム及び情報処理装置 |
US9418315B1 (en) * | 2016-03-14 | 2016-08-16 | Sageworks, Inc. | Systems, methods, and computer readable media for extracting data from portable document format (PDF) files |
US9760627B1 (en) * | 2016-05-13 | 2017-09-12 | International Business Machines Corporation | Private-public context analysis for natural language content disambiguation |
US10324589B2 (en) | 2016-10-25 | 2019-06-18 | International Business Machines Corporation | Navigation by usage locations in a document editing application |
US11200412B2 (en) * | 2017-01-14 | 2021-12-14 | Innoplexus Ag | Method and system for generating parsed document from digital document |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
US10572587B2 (en) * | 2018-02-15 | 2020-02-25 | Konica Minolta Laboratory U.S.A., Inc. | Title inferencer |
US10635743B2 (en) * | 2018-03-12 | 2020-04-28 | Microsoft Technology Licensing, Llc | Automatic extraction of document page numbers from PDF |
US20200175268A1 (en) * | 2018-11-26 | 2020-06-04 | Javier H. Lewis | Systems and methods for extracting and implementing document text according to predetermined formats |
WO2020133186A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
CN109947996B (zh) * | 2019-03-13 | 2021-02-09 | 北大方正集团有限公司 | 文档处理方法和装置 |
US10949664B2 (en) | 2019-04-08 | 2021-03-16 | Kyocera Document Solutions Inc. | Optical character recognition training data generation for neural networks by parsing page description language jobs |
US11244203B2 (en) * | 2020-02-07 | 2022-02-08 | International Business Machines Corporation | Automated generation of structured training data from unstructured documents |
US11295175B1 (en) | 2020-09-25 | 2022-04-05 | International Business Machines Corporation | Automatic document separation |
US11727215B2 (en) | 2020-11-16 | 2023-08-15 | SparkCognition, Inc. | Searchable data structure for electronic documents |
US11720541B2 (en) | 2021-01-05 | 2023-08-08 | Morgan Stanley Services Group Inc. | Document content extraction and regression testing |
US20230014904A1 (en) * | 2021-07-16 | 2023-01-19 | SparkCognition, Inc. | Searchable data structure for electronic documents |
US11954422B2 (en) * | 2021-08-27 | 2024-04-09 | Rock Cube Holdings LLC | Systems and methods for structure-based automated hyperlinking |
EP4273736A1 (de) * | 2022-05-04 | 2023-11-08 | Siemens Energy Global GmbH & Co. KG | System und verfahren zur verwaltung von in technischen dokumenten enthaltenen informationen |
US20230394221A1 (en) * | 2022-06-06 | 2023-12-07 | Microsoft Technology Licensing, Llc | Converting a portable document format to a latex format |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5734837A (en) | 1994-01-14 | 1998-03-31 | Action Technologies, Inc. | Method and apparatus for building business process applications in terms of its workflows |
US6415307B2 (en) * | 1994-10-24 | 2002-07-02 | P2I Limited | Publication file conversion and display |
US5694594A (en) | 1994-11-14 | 1997-12-02 | Chang; Daniel | System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms |
JPH08297669A (ja) | 1994-12-27 | 1996-11-12 | Internatl Business Mach Corp <Ibm> | 複合ドキュメント内の複数のパートを自動的にリンクするシステムおよび方法 |
US5794257A (en) | 1995-07-14 | 1998-08-11 | Siemens Corporate Research, Inc. | Automatic hyperlinking on multimedia by compiling link specifications |
US6374260B1 (en) * | 1996-05-24 | 2002-04-16 | Magnifi, Inc. | Method and apparatus for uploading, indexing, analyzing, and searching media content |
US5995659A (en) | 1997-09-09 | 1999-11-30 | Siemens Corporate Research, Inc. | Method of searching and extracting text information from drawings |
US6344906B1 (en) * | 1997-09-16 | 2002-02-05 | Cyberscan Technology, Inc. | Universal document scanner controller |
US6154754A (en) | 1997-09-25 | 2000-11-28 | Siemens Corporate Research, Inc. | Automatic synthesis of semantic information from multimedia documents |
US6415278B1 (en) * | 1997-11-14 | 2002-07-02 | Adobe Systems Incorporated | Retrieving documents transitively linked to an initial document |
US6078924A (en) * | 1998-01-30 | 2000-06-20 | Aeneid Corporation | Method and apparatus for performing data collection, interpretation and analysis, in an information platform |
US6505191B1 (en) * | 1998-07-24 | 2003-01-07 | Jarg Corporation | Distributed computer database system and method employing hypertext linkage analysis |
JP3646582B2 (ja) * | 1998-09-28 | 2005-05-11 | 富士通株式会社 | 電子情報表示方法、電子情報閲覧装置および電子情報閲覧プログラム記憶媒体 |
US6510406B1 (en) * | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US20010032218A1 (en) * | 2000-01-31 | 2001-10-18 | Huang Evan S. | Method and apparatus for utilizing document type definition to generate structured documents |
AU2001245554A1 (en) * | 2000-03-13 | 2001-09-24 | Broadfire Technologies Corporation | Information management system |
US7958185B2 (en) * | 2000-09-18 | 2011-06-07 | Bentley Systems, Inc. | Spatial data enabled engineering, construction, and operations computer-aided design (CAD) project system, method and computer program product |
WO2003038662A1 (en) * | 2001-10-31 | 2003-05-08 | University Of Medicine & Dentistry Of New Jersey | Conversion of text data into a hypertext markup language |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
-
2001
- 2001-11-28 US US09/996,271 patent/US7013309B2/en not_active Expired - Fee Related
- 2001-12-17 DE DE10162156A patent/DE10162156B4/de not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007005937A2 (en) | 2005-07-01 | 2007-01-11 | Microsoft Corporation | Grammatical parsing of document visual structures |
EP1894144A2 (de) * | 2005-07-01 | 2008-03-05 | Microsoft Corporation | Grammatisches analysieren von visuellen strukturen eines dokuments |
EP1894144A4 (de) * | 2005-07-01 | 2012-12-26 | Microsoft Corp | Grammatisches analysieren von visuellen strukturen eines dokuments |
WO2012104583A1 (en) | 2011-01-31 | 2012-08-09 | Keywordlogic Limited | System for data extraction and processing |
Also Published As
Publication number | Publication date |
---|---|
DE10162156B4 (de) | 2006-06-29 |
US7013309B2 (en) | 2006-03-14 |
US20020118379A1 (en) | 2002-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10162156B4 (de) | Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren | |
DE69434620T2 (de) | Verfahren und Gerät zum Herstellen, Indexieren und Anschauen von zusammengefassten Dokumenten | |
DE10135445B4 (de) | Integriertes Verfahren für das Schaffen einer aktualisierbaren Netzabfrage | |
DE69434434T2 (de) | Verfahren und gerät um text- und bilddaten zu synchronisieren, anzeigen und manipulieren | |
DE69724557T2 (de) | Dokumentenanalyse | |
DE69724755T2 (de) | Auffinden von Titeln und Photos in abgetasteten Dokumentbildern | |
DE19709968C2 (de) | Verfahren und System zum Übersetzen eines Dokumentes | |
Chao et al. | Layout and content extraction for pdf documents | |
DE4311172C2 (de) | Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes | |
US6903751B2 (en) | System and method for editing electronic images | |
DE10308014B4 (de) | System und Verfahren zum Lokalisieren eines nichttextlichen Bereichs eines elektronischen Dokumentes oder Bildes, der mit einer benutzerdefinierten Beschreibung des Bereichs übereinstimmt | |
DE602004006682T2 (de) | Extraktion von Metadaten aus gekennzeichneten Bereichen eines Dokuments | |
DE69637125T2 (de) | Optimaler zugriff auf elektronische dokumente | |
DE60208604T2 (de) | Automatisches Verfahren zur Erzeugung von Image-buttons | |
DE69737884T2 (de) | Textprozessor | |
EP1665132B1 (de) | Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten | |
DE602005002473T2 (de) | Verfahren zum Erkennen von semantischen Einheiten in einem elektronischen Dokument | |
DE602004005216T2 (de) | Dokumentenscanner | |
DE102017008430A1 (de) | Verfahren und Systeme zum Erzeugen von virtuelle Realität-Umgebungen aus elektronischen Dokumenten | |
EP1669852B1 (de) | Verfahren und Computerprogramm zum Umwandeln eines Eingangs-Dokumentendatenstroms mit einem oder mehreren Dokumenten in eine strukturierte Datendatei | |
US20040194035A1 (en) | Systems and methods for automatic form segmentation for raster-based passive electronic documents | |
Lovegrove et al. | Document analysis of PDF files: methods, results and implications | |
WO2005119580A1 (de) | Verfahren und einrichtung zur strukturanalyse eines dokuments | |
DE10162418A1 (de) | System zur Verarbeitung strukturierter Dokumente, damit sie sich zur Ablieferung über Netzwerke eignen | |
EP1671262B1 (de) | Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |