DE10162156A1 - Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle - Google Patents

Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle

Info

Publication number
DE10162156A1
DE10162156A1 DE10162156A DE10162156A DE10162156A1 DE 10162156 A1 DE10162156 A1 DE 10162156A1 DE 10162156 A DE10162156 A DE 10162156A DE 10162156 A DE10162156 A DE 10162156A DE 10162156 A1 DE10162156 A1 DE 10162156A1
Authority
DE
Germany
Prior art keywords
text
image
file
document
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10162156A
Other languages
English (en)
Other versions
DE10162156B4 (de
Inventor
Amil Chakraborty
Liang-Hua Hsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of DE10162156A1 publication Critical patent/DE10162156A1/de
Application granted granted Critical
Publication of DE10162156B4 publication Critical patent/DE10162156B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Abstract

Ein Verfahren zum Extrahieren von verankerbaren Informationseinheiten (AIUs) aus einer PDF-Datei (Portable Document Format), die entweder mit einem Editor oder durch Einscannen von Dokumenten erzeugt werden kann. Das Verfahren umfaßt das Parsen des PDF-Dokuments zu Textteilen und Nicht-Textteilen und das Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen. Das Verfahren umfaßt weiterhin das Bestimmen von Text in Textteilen und das Texten der Nicht-Textteile und das Erstellen von Hyperlinks für mehrere Schlüsselwörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.

Description

HINTERGRUND DER ERFINDUNG 1. Technisches Gebiet
Die vorliegende Erfindung betrifft die Verarbeitung von Multimedia-Dateien zur Bereitstellung von Infor­ mationen, die die Benutzernavigation durch Multimedia- Dateiinhalte unterstützen.
2. Stand der Technik
Die Nachfrage nach Hypermedia-Anwendungen hat mit der wachsenden Beliebtheit des World Wide Web zugenommen. Als Ergebnis ist ein effektives und automatisches Verfahren zur Erzeugung von Hypermedien notwendig geworden. Die Erzeugung von Hypermedien kann jedoch eine aufwendige und manuell intensive Aufgabe sein. Die Erzeugung von Hypermedien kann insbesondere bei der Bezugnahme auf Inhalte in Dokumenten, wie zum Beispiel Bilder und/oder andere Medien, schwierig sein.
In vielen Fällen müssen die Hypermedia-Autoren verankerbare Informationseinheiten (AIUs - Anchorable Information Units) oder Hotspots finden, die Bereiche oder Schlüsselwörter mit besonderer Bedeutung sind, und entsprechende Hyperlinks zu relevanten Informationen erstellen. In einem elektronischen Dokument kann ein Benutzer zugeordnete Informationen durch Auswählen dieser Hotspots abrufen, während das System die zugeordneten Hyperlinks interpretiert und die entsprechenden relevanten Informationen abruft.
Bei bisherigen Arbeiten auf diesem Gebiet wurden gescannte Bitmap-Bilder als Eingabe für ein Dokumentanalysesystem verwendet. Die Klassifizierung des Dokumentsystems wird häufig von a-priori-Kenntnis der Klasse des Dokuments bestimmt. Es wurde bisher nur wenig an der Verwendung von Postscript-Dateien als Startpunkt für die Dokumentanalyse gearbeitet. Wenn eine Postscript-Datei für maximale Raster-Effizienz ausgelegt ist, kann es sicherlich eine entmutigende Aufgabe sein, auch nur die Lesereihenfolge für das Dokument zu rekonstruieren. Bisherige Forscher haben vielleicht angenommen, daß immer ein gut strukturierter Quellentext verfügbar ist, der mit der Postscript- Ausgabe übereinstimmt, und ein Arbeiten von unten nach oben aus dem Postscript nur selten notwendig sein würde. PDF-Dokumente können jedoch auf vielfältige Weise erzeugt werden, darunter auch eine Route auf der Grundlage der optischen Zeichenerkennung (OCR) direkt aus einer Bitmap-Seite. Die zusätzliche Struktur in PDF über die in Postscript hinaus kann im Hinblick auf das Ziel des Verständnisses des Dokuments ausgenutzt werden.
Bisherige Arbeiten haben Verfahren vorgeschlagen, die mit dem Verstehen von Rasterbildern zusammenhängen. Da diese Aufgabe definitionsgemäß ein Umkehrungsproblem ist, läßt sie sich nicht ohne. umfassende Annahmen durchführen. Eine direkte Anwendung dieser Verfahren auf PDF-Dokumente wäre nur wenig sinnvoll, da sie nicht dafür ausgelegt sind, die zugrundeliegende Struktur von PDF-Dateien auszunutzen und somit unerwünschte Ergebnisse erzeugen.
Im Gegensatz zu der Analyse des geometrischen Layouts wurde der Analyse des logischen Layouts nur sehr wenig Aufmerksamkeit geschenkt. Bestimmte Verfahren für die Analyse des logischen Layouts führen eine Bereichsidentifikation oder -klassifikation in einem abgeleiteten geometrischen Layout durch. Diese Ansätze basieren jedoch im wesentlichen auf Regeln und das Endergebnis hängt somit von der Zuverlässigkeit der vorgegebenen Informationen ab, und davon, wie gut die vorgegebenen Informationen in den Regeln repräsentiert sind.
Systeme wie zum Beispiel Acrobat verfügen nicht über die Möglichkeit, Bilder zu verarbeiten. Stattdessen läßt Acrobat das gesamte Dokument durch ein OCR-System laufen. OCR ist natürlich nicht in der Lage, Objekte zu extrahieren, aber auch im Fall des Verstehens von Text kann die Ausgabe unzuverlässig sein, da Vielzweck-OCR bei Verwendung zum direkten Verstehen eingescannter Bilder fehleranfällig ist.
Deshalb wird ein Verfahren zum Analysieren und Extrahieren von Text aus mit verschiedenen Mitteln erzeugten PDF-Dokumenten benötigt.
KURZE DARSTELLUNG DER ERFINDUNG
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein System zur Verarbeitung einer Multimedia-Datei bereitgestellt, um Informationen zu liefern, die die Benutzernavigation durch Inhalte von Multimedia-Dateien unterstützen. Das System enthält einen Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer Datei und einen Bildprozessor zum Verarbeiten der identifizierten Bildinhalte zur Identifizierung eingebetteter Textinhalte. Das System enthält ferner einen Textsortierer zum Parsen des identifizierten Texts und des identifizierten eingebetteten Texts, um gemäß vorbestimmter Sortierregeln Textelemente zu finden, und Speicher zum Speichern einer die Textelemente enthaltenden Navigationsdatei.
Die Navigationsdatei weist zu mindestens einem internen Dokument-Objekt Links auf. Die Navigationsdatei weist zu mindestens einem externen Dokument-Objekt Links auf.
Der Bildprozessor enthält einen Schwarzweiß- Bildprozessor mit einer Pixel-Verschmierungskomponente, die Text auf einen rechteckigen Pixelblock reduziert, und eine Bildfilterungskomponente zum Säubern eines verschmierten Bildes.
Der Inhalts-Parser wendet Textextrahierungsregeln an, um Text und eine Dokumentstruktur zu identifizieren, wobei die Dokumentstruktur einen Kontext für identifizierten Text definiert. Der Inhalts-Parser wendet vordefinierte hierarchische Regeln zur Bestimmung einer Ebene von identifiziertem Text an.
Der Bildprozessor wendet Objektschablonen an, um eingebetteten Text zu identifizieren.
Das System verfeinert eine Suchauflösung während eines Textidentifizierungsprozesses, um eine Position des eingebetteten Texts in einem Bild zu bestimmen.
Identifizierter Text umfaßt Hyperlinks.
Gemäß einer anderen Ausführungsform der vorliegenden Erfindung wird ein grafisches Benutzerschnittstellen­ system bereitgestellt, das die Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen zur Unterstützung der Benutzernavigation durch Multimedia-Dateiinhalte unterstützt. Das grafische Benutzerschnittstellensystem enthält einen Menü­ generator zum Erzeugen eines oder mehrerer Menüs, die dem Benutzer die Auswahl einer Eingangsdatei und eines Eingangsformats zur Verarbeitung ermöglichen, und eines Symbols, das dem Benutzer die Einleitung der Erzeugung einer Navigationsdatei ermöglicht, die das Erstellen von Links für Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten zur Identifizierung von Text zur Integration in eine Navigationsdatei unterstützt.
Identifizierter Text umfaßt Hyperlinks.
Die Navigationsdatei umfaßt weiterhin Links zu mindestens einem internen Dokument-Objekt.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Erzeugung einer verankerbaren Informationseinheit in einem PDF-Dokument (portable document format) bereitgestellt. Das Verfahren umfaßt das Extrahieren eines Textsegments aus dem PDF- Dokument, das Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer kontextabhängigen hierarchischen Struktur ausgewählt wird, und das Definieren des Textsegments als eine verankerbare Informationseinheit gemäß dem Kontext.
Das PDF-Dokument enthält eines oder mehrere Textobjekte und eines oder mehrere Nicht-Textobjekte, wobei die Objekte Textsegmente enthalten.
Das Bestimmen des Kontexts umfaßt das Vergleichen des Textsegments mit mehreren bekannten Mustern in dem PDF- Dokument und das Bestimmen des Kontexts bei Bestimmung einer Übereinstimmung zwischen dem Textsegment und einem bekannten Muster des PDF-Dokuments.
Das Extrahieren von Text umfaßt weiterhin das Extrahieren von Text aus einem Bild des PDF-Dokuments, das Bestimmen eines Bildtyps, wobei der Typ ein Schwarzweißbild, ein Graustufenbild oder ein Farbbild ist, und das Verarbeiten des Bildes gemäß dem Typ.
Das PDF-Dokument enthält eine bekannte kontextabhängige hierarchische Struktur. Die kontextabhängige hierarchische Struktur, einschließlich der veranker­ baren Informationseinheit, ist durchsuchbar. Der Kontext enthält eine Position der extrahierten Textsegmente. Das Bestimmen des Kontexts umfaßt das Bestimmen einer Position und eines Stils des Textsegments.
Das Verfahren umfaßt weiterhin das Speichern des Textsegments in einer SGML-Syntax (Standard Generalized Markup Language) unter Verwendung einer vordefinierten Grammatik.
Die verankerbare Informationseinheit wird automatisch mit Hyperlinks versehen.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zum Erzeugen einer Datei verankerbarer Informationseinheiten aus einem PDF- Dokument bereitgestellt. Das Verfahren umfaßt das Parsen des PDF-Dokuments zu Textteilen und Nicht- Textteilen. Das Verfahren umfaßt weiterhin das Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen und das Bestimmen von Text in den Textteilen, und Texten der Nicht-Textteile. Das Verfahren erstellt Hyperlinks für mehrere Schlüsselwörter in den Textteilen und Nicht-Textteilen zu mindestens einem verwandten Dokument.
Das Parsen umfaßt weiterhin den Schritt des Unterscheidens zwischen Farbbildinhalt, Schwarzweiß­ inhalt und Graustufeninhalt.
Das Extrahieren umfaßt weiterhin das Bestimmen einer Ebene für extrahierte Textteile, das Zuordnen des Kontexts zu dem Text und einen Mustervergleich von extrahiertem Text mit dem PDF-Dokument zur Bestimmung eines Kontexts. Die Ebene ist ein Absatz, eine Überschrift oder eine Unter-Überschrift. Der Musterver­ gleich umfaßt die Bestimmung einer Median-Fontgröße für das PDF-Dokument, das Vergleichen einer Fontgröße des extrahierten Texts mit der Median-Fontgröße für das PDF-Dokument und das Bestimmen eines Kontexts gemäß der Fontgröße.
Das Erzeugen von Hyperlinks umfaßt das Erzeugen der Datei verankerbarer Informationseinheiten, wobei die mehreren Schlüsselwörter verankerbare Informations­ einheiten sind.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Programmspeichergerät bereitgestellt, das maschinenlesbar ist und greifbar ein Programm von durch die Maschine ausführbaren Anweisungen zur Durchführung von Verfahrensschritten zum Erzeugen einer Datei verankerbarer Informationseinheiten aus einem PDF- Dokument realisiert.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nachfolgend ausführlicher mit Bezug auf die beigelegten Zeichnungen beschrieben. Es zeigen:
Fig. 1 ein Flußdiagramm einer Übersicht eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer Ausführungsform der vorliegenden Erfindung;
Fig. 2 ein Flußdiagramm eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer Ausführungsform der vorliegenden Erfindung; und
Fig. 3a-b ein Flußdiagramm eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer Ausführungsform der Vorliegenden Erfindung.
Fig. 4 eine grafische Benutzerschnittstellenanzeige, die die Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen zur Verwendung bei der Navigation durch Multimedia-Dateiinhalte gemäß einer Ausführungsform der vorliegenden Erfindung unterstützt.
AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Die vorliegende Erfindung liefert ein automatisiertes Verfahren zum Finden von Hotspots in einer PDF-Datei und zum Erzeugen von AIUs mit Querverweisen in Hypermedia-Dokumenten. Zum Beispiel können Textzeichen­ ketten auf einen relevanten Maschinenteil in einem ein industrielles Instrument beschreibenden Dokument zeigen.
Es versteht sich, daß die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, Spezialprozessoren oder einer Kombination davon implementiert werden kann. Bei einer Ausführungsform kann die vorliegende Erfindung in Software als ein Anwendungsprogramm implementiert werden, das greifbar auf einem Programmspeichergerät realisiert wird. Das Anwendungsprogramm kann auf eine Maschine mit beliebiger geeigneter Architektur heraufgeladen und von dieser ausgeführt werden. Vorzugsweise wird die Maschine auf einer Computerplattform mit Hardware, wie zum Beispiel einer oder mehreren zentralen Verarbeitungseinheiten (CPUs), einem Direktzugriffs­ speicher (RAM) und Eingangs-/Ausgangs(E/A-)­ Schnittstelle(n) implementiert. Die Computerplattform enthält außerdem ein Betriebssystem und Mikrobefehlscode. Die verschiedenen hier beschriebenen Prozesse und Funktionen können entweder Teil des Mikrobefehlscodes oder Teil des Anwendungsprogramms (oder einer Kombination dieser) sein, der bzw. das über das Betriebssystem ausgeführt wird. Zusätzlich können verschiedene andere Peripheriegeräte mit der Computerplattform verbunden werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein Druckgerät.
Da ein Teil der in den beigefügten Figuren abgebildeten Systemkomponenten und Verfahrensschritte in Software implementiert werden können, versteht sich weiterhin, daß die tatsächlichen Verbindungen zwischen den Systemkomponenten (oder Prozeßschritten) abhängig von der Art und Weise der Programmierung der vorliegenden Erfindung unterschiedlich sein können. Mit den hier angegebenen Lehren der vorliegenden Erfindung werden Durchschnittsfachleute auf dem betreffenden Gebiet in der Lage sein, diese und ähnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.
Die betrachteten PDF-Dateien können einfachen Text oder allgemeiner eine Mischung von Text und vielfältigen verschiedenen Bildtypen, wie zum Beispiel Schwarzweiß, Graustufen und Farbe enthalten. Gemäß einer Ausführungsform der vorliegenden Erfindung findet das Verfahren die Text- und Nicht-Textbereiche und wendet auf beides verschiedene Verarbeitungsverfahren an. Für die Nicht-Textbereiche werden gemäß dem Typ des darin enthaltenen Bildes verschiedene Bildverarbeitungs­ verfahren verwendet.
Das Extrahieren von AIUs ist für die Erzeugung von Hypermedia-Dokumenten wichtig. Bei bestimmten PDF- Dateien, z. B. solche, die in einen Computer eingescannt wurden, kann dies jedoch schwierig werden. Gemäß einer Ausführungsform der vorliegenden Erfindung zerlegt das Verfahren das Dokument, um ein Seitenlayout für die zugrundeliegenden Seiten zu bestimmen. Somit können verschiedene Verfahren auf die verschiedenen Teile einer Seite angewandt werden. Ein geometrisches Seitenlayout eines Dokuments ist eine Spezifikation der Geometrie der maximalen homogenen Bereiche und ihrer Klassifikation (Text, Tabelle, Bild, Zeichnung usw.). Die Analyse des logischen Seitenlayouts umfaßt das Bestimmen eines Seitentyps, das Zuweisen von Funktionsetiketten, wie zum Beispiel Titel, Anmerkung, Fußnote, Bildunterschrift usw. auf jeden Block der Seite, das Bestimmen der Beziehungen der Blöcke und das Anordnen der Textblöcke gemäß einer Lesereihenfolge.
OCR hat bei vorbekannten Systemen zur Bestimmung des Dokumentinhalts eine wichtige Rolle gespielt. Dementsprechend wurde die meiste Forschungs­ aufmerksamkeit OCR gewidmet. Da die Leistung des Dokumentverständnissystems als Ganzes von der vor der OCR stattfindenden Vorverarbeitung abhängt, spielt in diesem Bereich die Seitensegmentierung eine wichtige Rolle.
Die vorliegende Erfindung analysiert das Dokument und extrahiert Informationen aus dem Text und/oder den Figuren, die sich an einer beliebigen Stelle in dem Dokument befinden können. Das Verfahren bestimmt den Kontext, in dem diese Hotspots (z. B. interessierende Objekte oder Textsegmente) erscheinen. Weiterhin sichert das Verfahren diese Informationen auf eine strukturierte Weise, die einer vordefinierten Syntax oder Grammatik folgt, durch die sich das Verfahren auf diese Informationen beziehen kann, während automatische Hyperlinks zwischen verschiedenen Dokumenten und Medientypen erzeugt werden.
Fig. 1 zeigt ein Flußdiagramm der Hauptphasen in dem Prozeß der grafischen Erkennung. Die Eingabe für das System umfaßt eine PDF-Datei 101. Das Verfahren parst die Datei zu Bereichen von Text und Nicht-Text 102. Die Text- und Nicht-Textbereiche werden analysiert, um Struktur- und andere relevante Informationen 103 zu extrahieren. Das Verfahren bestimmt Text in normalen Textblöcken 104 sowie Text in den (etwaigen) Bildern 105-108, wie zum Beispiel Elementnummern in einer technischen Zeichnung. Das Verfahren unterscheidet zwischen Farbbildern und Schwarzweißbildern 105 vor dem Extrahieren von Text aus einem Bild. Diese Textsegmente werden zur Erzeugung von Hyperlinks zu anderen Dokumenten 109-110, zum Beispiel einer anderen PDF- Datei oder beliebigen anderen Medientypen, wie zum Beispiel Audio, Video usw. verwendet.
Um Anwendungsprogrammierer dabei zu unterstützen, Wörter aus PDF-Dateien zu extrahieren, liefert Adobe Systems ein Software-Development-Kit (SDK), das über die Anwendungsprogrammiererschnittstelle (API) von Acrobat®-Viewer-Programmen Zugang zu dem zugrunde­ liegenden portierbaren Dokumentmodell gibt, das das Viewer-Programm im Speicher hält. Das SDK ist in der Lage, eine Suche nach PDF-Dokumenten durchzuführen. Für die PDF-Dokumente, die direkt aus einem Texteditor, wie zum Beispiel Word von Microsoft oder FrameMaker® von Adobe, erzeugt werden, funktioniert dies recht gut, bei eingescannten Dokumenten kann sich die Leistung jedoch wesentlich verschlechtern. Außerdem kann das SDK bei Dokumenten mit Doppelspalten fehleranfällig sein. SDK wurde im wesentlichen für Dokumente entworfen, die mit einem Texteditor erzeugt wurden. Deshalb war die Leistung mit durch andere Mittel erzeugten Dokumenten keine wichtige Frage. Die vorliegende Erfindung verwendet eine alternative Strategie für eingescannte Dokumente.
Gemäß einer Ausführungsform der vorliegenden Erfindung extrahiert das Verfahren Wörter zusammen mit ihrer Position in dem Dokument und dem Stil, mit dem sie wiedergegeben werden. Das Verfahren bestimmt nicht nur, ob eine Seite ein bestimmtes Wort enthält oder nicht, sondern bestimmt auch seine Position und seinen Kontext, so daß automatisch auf der Grundlage des Inhalts ein Link von der Position zu denselben Medien oder einem anderen erzeugt werden kann.
Mit Bezug auf Fig. 2 extrahiert 202 das Verfahren Text, die Koordinaten des Texts und den Textstil aus einer PDF-Datei 201. Das Verfahren analysiert Parameter der PDF-Datei, um den Kontext des Texts zu bestimmen 203-205. Zu den Parametern gehören u. a. Absätze 203, Überschriften 204 und Unterüberschriften 205. Das Verfahren extrahiert weiterhin Text und zugeordnete Randboxen und Seitennummern. Die Parameter einer Randbox werden aus den extrahierten Koordinaten bestimmt. Das Verfahren ordnet Kontext Text 206 zu. Wenn zum Beispiel die Randbox horizontal mit mehreren anderen Wörtern ausgerichtet ist, z. B. wenn der Text auf ähnlichen Höhen erscheint und Teil einer größeren Gruppe ist, dann bestimmt das Verfahren diesen Text als Teil des normalen Texts (z. B. eines Absatzes) für die Seite, im Gegensatz zum Beispiel zu einer Überschrift.
Das Verfahren bestimmt die Median-Fontgröße für einen Teil des Textdokuments und führt einen kontext­ abhängigen Mustervergleich 207 durch. Wenn die Fontgröße für einen Teil des Texts größer als der Median ist und wenn der Textteil klein ist, z. B. sich der Text nicht um mehr als eine einzige Zeile erstreckt, bestimmt das Verfahren, daß dies Teil einer Überschrift ist. Bei Bestimmung einer Überschrift prüft das Verfahren die Textebene, z. B. ob sie zu einer Kapitelüberschrift, einer Abschnittsüberschrift, einem Unterabschnitt usw. gehört. Die Textebene kann auch aus den verwendeten relativen Fontgrößen und Offsets von dem rechten und linken Rand, falls vorhanden, bestimmt werden.
Nachdem das Verfahren alle Textinformationen bezüglich der Organisation des Dokuments bestimmt hat, verwendet das Verfahren Organisationsinformationen zum wählbaren Erzeugen von verankerbaren Informationseinheiten (AIUs) 208-209 oder Hotspots. Das Verfahren erzeugt automatisch oder halbautomatisch diese Hotspots auf eine kontextabhängige nichtredundante Weise auf der Grundlage der Organisationsinformationen.
Die vorliegende Erfindung liefert ein Verfahren zum Extrahieren von Bildern. Dieses Problem wird dadurch schwierig, daß Text möglicherweise nicht von Polylinien unterschieden werden kann, die die zugrundeliegenden Linienzeichnungen bilden. Obwohl das Entwickeln eines allgemeinen Verfahrens; das für alle Arten von Linienzeichnungsbildern funktionieren würde, schwierig ist, verwendet die vorliegende Erfindung zugrunde­ liegende Strukturen der betreffenden Dokumente. Die vorliegende Erfindung findet Bilder gemäß der Geometrie und Länge der Textzeichenketten. Diese lokalisierten Bereiche werden mit OCR-Software analysiert, um den Textinhalt zu extrahieren.
Mit Bezug auf Fig. 3a und 3b extrahiert das Verfahren Bilder und ihre Position 302 aus einer PDF-Datei 301. In PDF-Dateien kähnen verschiedene Arten von Bildern codiert werden, darunter Schwarzweiß-, Graustufen- und Farbbilder. Interessierende Objekte können in beliebigen dieser Bilder codiert werden. Zum Beispiel kann ein Schwarzweißbild dazu dienen, eine CAD- Zeichnung (computer aided design) zu codieren. CAD- Bilder können zum Beispiel Diagramme vordefinierter Objekte oder Textsegmente enthalten, die sich auf wichtige Informationen, wie zum Beispiel Maschinen­ teile, beziehen können. Andere Bilder sind zum Beispiel Beschreibungen von Maschinenteilen, insbesondere, wenn die Dokumente von technischer Natur sind.
Bei PDF wird ein Bild als Xobjekt bezeichnet, dessen Subtyp Image ist. Bilder ermöglichen einen Inhaltsstrom zur Spezifikation eines abgetasteten Bildes oder einer Bildmaske. Das Verfahren bestimmt den Typ des Bildes 303. PDF ermöglicht Bildmasken, z. B. 1-Bit-, 2-Bit-, 4- Bit- und 8-Bit-Graustufenbilder und Farbbilder mit 1, 2, 4 oder 8 Bit pro Komponente. Eine Bildmaske, wie zum Beispiel ein externes Bild, kann in die PDF-Datei eingebettet werden. Für eingebettete Bilder bestimmt das Verfahren einen Bezug auf dieses Bild und auf der Grundlage des Bildtyps und des Dateiformats kann ein entsprechendes Decodierungsverfahren verwendet werden, um das Bild zu extrahieren und es zu verarbeiten 304. Wenn es sich um ein abgetastetes Bild handelt, dann werden die Bildpixelwerte jedoch direkt in der PDF- Datei auf bestimmte codierte Weise gespeichert. Die Bildpixelwerte können zunächst decodiert und dann verarbeitet werden 305.
Das Verfahren vereinfacht die Bilder, um Textzeichenketten zu extrahieren 306. Die Graustufenbilder werden durch Schwellenverfahren in Schwarzweißbilder umgesetzt 307. Das Verfahren sucht nach Textzeichenketten entweder in Graustufen- oder Schwarzweißbildern. Wenn das Bild nicht farbig ist, wird es somit auf Schwarzweiß reduziert.
Für die Schwarzweißbilder verschmiert das Verfahren das Bild 308. In einer willkürlichen Kette von Schwarzweiß- Pixeln ersetzt das Verfahren weiße Pixel durch schwarze Pixel, wenn die Anzahl angrenzender weißer Pixel zwischen zwei schwarzen Pixeln kleiner als eine vorbestimmte Konstante ist. Diese Konstante hängt mit der Fontgröße zusammen und kann vom Benutzer definiert werden. Diese Operation wird hauptsächlich in der horizontalen Richtung eingesetzt. Die Operation schließt die Lücken, die zwischen verschiedenen Buchstaben in einem Wort bestehen, und ein Wort auf einen rechteckigen Block schwarzer Pixel reduzieren können. Sie wirkt sich jedoch auch auf Linienzeichnungen auf ähnliche Weise aus. Der Unterschied besteht hier darin, daß durch die Beschaffenheit ihrer Erscheinung Textwörter nach der Operation rechteckig mit einer bestimmten Höhe (für horizontalen Text) und Breite ausschauen (unter der Annahme, daß die in einer technischen Zeichnung erscheinenden Teilenummern wahrscheinlich eine bestimmte Länge aufweisen). Die Linienzeichnungen erzeugen jedoch unregelmäßige Muster, durch die sie von dem zugeordneten Text unterscheidbar werden.
Das Verfahren säubert das resultierende Bild durch Verwendung einer Median-Filterung 309 zur Entfernung kleiner Inseln oder Gruppen von schwarzen Pixeln. Das Verfahren gruppiert die horizontalen Läufe schwarzer Pixel zu Gruppen, die durch weiße Zwischenräume getrennt werden, und ordnet ihnen Etiketten zu 310. Das Verfahren berechnet eine Randbox 311 für jede Gruppe und berechnet Merkmale wie zum Beispiel Breite, Höhe, Seitenverhältnis und Pixeldichte, z. B. das Verhältnis der Anzahl schwarzer Pixel zu der Fläche der Randbox.
Das Verfahren implementiert Regeln 312 zur Bestimmung, ob sich in der Randbox Text befindet, und falls dies so ist, ob der Text interessiert. Durch eine Schwellentechnik schließt das Verfahren Bereiche aus, die entweder zu groß oder zu klein sind. Das Verfahren sucht nach einem Wort oder zwei, die eine Kennung bilden, wie zum Beispiel eine Teilenummer oder einen Teilenamen. Das Verfahren schließt außerdem Bereiche aus, deren Beschaffenheit, wie durch das Seitenverhältnis Breite/Höhe definiert, nicht recht­ eckig sondern quadratisch ist, da Wörter normalerweise mehrere Zeichen lang sind und eine Höhe von einem Zeichen aufweisen. Das Verfahren schließt außerdem Bereiche aus, die relativ leer sind, z. B. schwarze Pixel, die auf ziemlich unregelmäßge nicht rechteckige Weise verbunden sind. Dies ist eine Eigenschaft von Limienzeichnungen und ist nur unwahrscheinlich Textzeichenketten zugeordnet. Die Grenzen in dem obigen sind bereichsabhängig, und der Benutzer ist in der Lage, diese auf der Grundlage der Eigenschaften des verarbeiteten Dokuments zu wählen und zu modifizieren.
Nach der Identifizierung der plausiblen Textbereiche verwendet das Verfahren ein OCR-Toolkit 313 zur Identifizierung des ASCII-Texts, der die oben identifizierten plausiblen Bereiche charakterisiert. Nachdem das Verfahren den Text bestimmt hat, dient ein Mustervergleichsverfahren 314 zur Korrektur von Fehlern, die während der Erkennung durch die OCR verursacht worden sein können. Zum Beispiel könnte die OCR falscherweise den Buchstaben "o" durch die Ziffer "0" ersetzt haben. Wenn dem Verfahren der Kontext bewußt ist, können solche Fehler korrigiert werden.
Das Verfahren behält interessierende Wörter und/oder Phrasen und sichert sie in einer AIU-Datei. Wenn das Verfahren den interessierenden Text extrahiert und gesichert hat, werden in den Bildern 316 etwaige Objektteile identifiziert.
Um die Geschwindigkeit des Verfahrens zu vergrößern, werden die Nicht-Textbereiche des Bildes zu Blöcken geparst. Ein Histogramm der Pixel-Grauwert- oder Farbwerte in diesen Blöcken 317-318 wird dann analysiert. Bei einem Farbbild analysiert das Verfahren ein Histogramm für das gesamte Bild.
Das Verfahren implementiert Schablonen von Objekten, nach denen in dem Bild gesucht wird. Das Verfahren parst die Schablone zu Blöcken und bestimmt ein Histogramm für die Blöcke. Das Verfahren bestimmt Positionen in dem ursprünglichen Bild von Blöcken, die eine ähnliche Histogramm-Signatur wie die der Schablone aufweisen. Wenn eine Übereinstimmung bestimmt wird 319, führt das Verfahren eine sorgfältigere Pixelkorrelation 320 durch, um die genaue Position zu bestimmen.
Das Verfahren kann mit einer niedrigen Auflösung beginnen, zum Beispiel unter Verwendung von 32 × 32- Blöcken. Wenn eine Übereinstimmung gefunden wird, kann das Verfahren mit einer höheren Auflösung, z. B. 16 × 16, neu iterieren. Nach der Neuiteration auf einen Maßstab von zum Beispiel 8 × 8, korreliert das Verfahren die Schablone mit dem Original, um eine Position einer wünschenswerten Übereinstimmung zu finden. Vor der Durchführung einer Korrelation binärisiert das Verfahren jedoch das Bild 321, wenn es nicht bereits in binärer Form vorliegt, durch Berechnen von Rändern. Für das binärisierte Bild führt das Verfahren eine Korrelation für die Ränder durch. Somit kann das Verfahren die für die Verarbeitung eines Bildes benötigte Verarbeitungsmenge reduzieren.
Übereinstimmungen werden mit einer Schwelle 323 bestimmt, die auf 0,6 × Ne gesetzt werden kann, wobei Ne die Anzahl von Randpunkten in der Schablone ist. Das Verfahren bestimmt die Informationen, die sowohl für die Text- als auch die Nicht-Textteile der PDF-Dateien benötigt werden, und die zusammengestellten Informationen werden unter Verwendung einer SGML- Sprache (Standard Generalized Markup Language) in AIU- Dateien 324-325 gespeichert. Mit SGML-Syntax kann man Hyperlinks zu anderen Teilen desselben Dokuments oder zu anderen Dokumenten oder unähnlichen Medientypen erzeugen.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird die Struktur von PDF-Dokumenten in SGML definiert. Die Strukturinformationen können zur Erfassung der aus einem PDF extrahierten Informationen verwendet werden. Die aus dem PDF extrahierten Objekte werden als verankerbare Informationseinheiten (AIUs) bezeichnet. Da aus einefft PDF-Dokument extrahierte Informationen als eine Instanz der PDF-AIU-Dokumenttypendefinition (DTD) dargestellt werden und somit gut strukturiert sind, kann das Verfahren automatisch Hyperlinks zwischen den PDF-Dokumenten und anderen Arten von Dokumenten erzeugen. Wenn der Benutzer während des Browsens das Objekt anklickt, kann deshalb das entsprechende Link navigiert werden, um das gewünschte Ziel zu erreichen.
Nach der Verarbeitung wird jede PDF-Datei einer AIU- Datei zugeordnet, die aus der PDF-Datei extrahierte relevante Informationen enthält. Die AIU-Datei wird auf hierarchische Weise folgendermaßen definiert:
An der Wurzel umfaßt die AIUDoc-Definition die Kopf-, Fuß- und die extrahierten Informationen in dem Feld PdfDocX.
Die Definition des DocHeader wird gegeben als:
und die Felder in dem PdfDocX werden gegeben durch (diese Felder werden später definiert):
Das Feld PdfSeg, das die Abschnitte charakterisiert, wird definiert als:
während die Felder PdfSeg2, die die Segmente in diesem Dokument sind, folgendermaßen definiert werden:
die AIUs werden mit den folgenden Feldern definiert:
Eine AIU-Datei ist somit eine Folge von einem oder mehreren parsbaren Zeichendatenelementen. In dem Beispiel umfassen die Zeichendaten eine Kette von ASCII-Zeichen und -Nummern. Während die verschiedenen für PDF-ATUs relevanten Attribute oben aufgelistet wurden, können zusätzliche Attribute für AIUs relevant sein, die andere Medientypen betreffen. Wie bereits erwähnt, strukturiert das Verfahren das PDF-Dokument auf hierarchische Weise. An der Wurzel befindet sich das gesamte Dokument. Das Dokument wird in Teildokumente zerlegt. Die AIU-Datei beginnt mit einer Beschreibung des Typs des zugrundeliegenden Medientyps, in diesem Fall PDF. Der Dokumentkopf enthält vier verschiedene Felder, darunter den zugrundeliegenden PDF-Dateinamen, eine eindeutige Kennung für die gesamte PDF-Datei, eine Dokument-Typendefinition, die den Kontext der PDF-Datei erläutert, und eine spezifischere Dokumentbeschreibung, die den Inhalt der PDF-Datei erläutert.
Die aus der PDF-Datei extrahierten Informationen werden in der PDFDocX-Struktur gespeichert. Die PDFDocX- Struktur enthält eine eindeutige Kennung, die aus der Kennung der PDF-Datei selbst abgeleitet wird. Das PDF- Dokument wird auf hierarchische Weise unter Verwendung von Teildokumenten und Segmenten organisiert. Die Segmente weisen die folgenden Attribute auf. Wiederum gibt es eine eindeutige Kennung für jedes Segment. Die Anfangs- und Endpositionen dieser Segmente definieren das Ausmaß dieser Abschnitte. Auf der Grundlage der Anforderungen und Größe des Dokuments können auch weitere Attribute verwendet werden.
Die PDF-AIUs enthalten eine eindeutige Kennung. Die PDF-AIUs können die folgenden Typen aufweisen: Rechteck, Ellipse und Polygon. Jede AIU hat außerdem einen eindeutigen Namen. Das Feld BoundaryCoords beschreibt die Koordinaten des zugrundeliegenden interessierenden Objekts und definiert die Randbox. Das Seitenfeld beschreibt die Seitenposition des zugrundeliegenden Dokuments. Im Fall von Rechtecken und Ellipsen werden die obere linke und untere rechte Ecke der Randbox definiert. Im Fall eines Polygons werden alle Knoten definiert.
Es folgt ein Beispiel für eine PDFAIU-Datei. Die Link- Definition wird in dem folgenden Teilabschnitt beschrieben.
Das Erzeugen von Hyperlinks für die PDF-AIUs kann manuell oder auf automatisierte Weise geschehen. Manuelle Links können während der oben beschriebenen AIU-Umgrenzungsphase eingefügt werden. Da die aus PDF extrahierten Informationen bei einer Ausführungsform der vorliegenden Erfindung jedoch in wohlstrukturierten AIU-Dateien gespeichert werden, enthält das Verfahren einen automatischen Hyperlinker zum automatischen Erstellen von Hyperlinks für PDF-AIUs zu allen anderen Typen von Dokumenten auf der Grundlage von Hyperlink- Spezifikationen. Das heißt, der Hyperlinker verarbeitet Link-Spezifikationen, führt an den Inhalten und Strukturen der Dokumente einen Mustervergleich durch und richtet Links zwischen Quellen und Zielen ein. Außerdem ist es wichtig, wie die Link-Informationen in den AIU-Dateien codiert werden. Jedes der codierten Objekte kann potentiell ein Link aufweisen. Da die SGML-Struktur für die AIU-Dateien verwendet wurde und Links Entitäten in dieser Datei sind, werden Links auch unter Verwendung einer ähnlichen SGML-Struktur definiert. Die Definition und die Felder werden nachfolgend angegeben:
Type definiert den Typ des Ziels, z. B. wenn es sich um Text oder Bild oder Video usw. handelt. Focus definiert den Text, der am Link-Ziel hervorgehoben wird. Book stellt das Buch dar, von dem Ziel Teil ist. Da die Hauptanwendung ein Handbuch mit Hyperlinks ist, werden sie in dem Beispiel als ein hierarchischer Baum organisiert, wobei jedes Handbuch als ein Buch dargestellt wird. Linkend, das wichtigste Attribut, enthält die Zielinformationen. Linkld ist ein Index zu der Datenbank, wenn das Ziel darauf zeigt. LinkruleId hat angezeigt, welche Regel dieses Link erzeugt hat. SubType ähnelt der Type-Definition in der obigen AIU- Spezifikation. Labels gibt eine Beschreibung des Link- Ziels. Es kann auch weitere Attribute geben.
Im folgenden wird eine Instanz einer AIU-Datei mit Hyperlinks bereitgestellt. Das heißt, Link-Elemente können manuell oder automatisch PDF-AIUs hinzugefügt werden, die während des Abspielens mit Hyperlinks zu ihren Zielen versehen werden sollen.
Die SGML-Dokumente (einschließlich der AIU-Dateien) werden mit dem SGML-Indexer vorindiziert. Dies umfaßt eine Wörterbuchauflistung von jedem SGML-Element in der Reihenfolge, in der sie in der Dokumentation erscheinen, und einen Index in dieses Wörterbuch. Auf der Grundlage der benutzerdefinierten Link- Spezifikationen werden Links unter Verwendung eines Mustervergleichs an diesen Wörterbuchdateien erzeugt. Für die PDF-AIUs können Links zu und von diesen auf diese Weise erzeugt werden. Der Hauptpunkt, der bezüglich des Hyperlinkers zu beachten ist, besteht darin, daß das Verfahren in der Lage ist, diese Maschinerie in dem PDFAIU-Erstellungssystem zu verwenden, indem es in der Lage ist, die PDF- Informationen mit Hilfe der AIU-Spezifikationssprache wie bereits erläutert zu strukturieren. Dadurch kann das Verfahren außerdem ein Hyperlink-Managementsystem implementieren, das Link-Regeln inkrementell aktualisieren kann. Die Link-Manager-Software, die diese Link-Datenbank zum Verfolgen von Link- Regeländerungen durch Verwendung von Zeitstempeln verwendet, tut dies. Das inkrementelle Erstellen von Hyperlinks erfolgt entweder durch Verändern bestehender Link-Spezifikationen oder durch Hinzufügen bestimmter zusätzlicher Link-Spezifikationen. Beim Hinzufügen < neuer Link-Spezifikationen führt der Hyperlinker die neue Link-Spezifikation an allen Dokumenten aus, fügt neue Links hinzu, ohne die alten zu zerstören. Wenn ein Link auf der Grundlage der Id des alten Links überholt wird, werden die alten Links entfernt. Eine ähnliche Prozedur wird beim Hinzufügen neuer Links verwendet.
Nach der Erstellung der Hyperlinks ist es wichtig, in der Lage zu sein, die gewünschten Funktionen beim Betrachten zu erhalten. Die derzeitige Implementierung modifiziert den Adope Acrobat® Reader™ und verwendet eine spezielle Software zur Erzielung der Kommunikation zwischen Prozessen über einen Link-Manager. Wenn dem Viewer-Programm dann ein Befehl gegeben wird, eine bestimmte PDF-Datei zu laden, schaut es während des Ladens außerdem nach, ob eine AIU-Datei für diese Datei verfügbar ist. Wenn dies der Fall ist, wird diese ebenfalls zusammen mit der ursprünglichen Datei geladen. Für jeden Eintrag wird in der AIU-Datei ein Rand um das interessierende Objekt gezeichnet. Wenn der Benutzer ein beliebiges der Objekte anklickt, kommuniziert das Viewer-Programm mit dem Link-Manager mit der entsprechenden Link-Kennung. Der Link-Manager führt dann das Link-Ziel aus. In einer Multimedia- Dokumentationsumgebung bedeutet dies häufig ein Springen zu einem bestimmten Punkt des Texts oder das Zeigen eines detaillierten Bildes des in Frage stehenden Objektes. In diesem Fall springt der SGML- Browser zu diesem Punkt in dem SGML-Dokument.
Fig. 4 zeigt eine grafische Benutzerschnittstellen­ anzeige, die die Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen zur Verwendung bei der Navigation durch Multimedia-Dateiinhalte unterstützt. Die Benutzerauswahl des Symbols 400 gestattet dem Benutzer die Einleitung der Erzeugung einer Navigationsdatei, die das Erstellen von Links von Eingangsdateielementen zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten zur Identifizierung von Text zur Integration in eine Navigationsdatei unterstützt. Als Reaktion auf die Benutzerauswahl des Symbols 400 werden außerdem Elemente in Menüs aktiviert, die bei der Auswahl eines Elements der Toolbars 405 und 410 durch den Benutzer erzeugt werden. Genauer gesagt wird als Reaktion auf die Benutzerauswahl des Symbols 415 ein Menü erzeugt, das dem Benutzer die Auswahl einer zu verarbeitenden Eingangsdatei und eines zu verarbeitenden Formats ermöglicht.
Nach der Beschreibung von Ausführungsformen für ein Verfahren zum Extrahieren verankerbarer Informations­ einheiten aus PDF-Dateien soll bemerkt werden, daß Fachleute im Hinblick auf die obigen Lehren Modifikationen und Varianten herstellen können. Es versteht sich deshalb, daß an den offengelegten konkreten Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die in dem Schutzumfang und Gedanken der Erfindung liegen, der durch die angefügten Ansprüche definiert wird. Nach dieser Beschreibung der Erfindung mit den von den Patentgesetzen geforderten Einzelheiten und Genauigkeiten wird der Schutzumfang des Patents nunmehr in den angefügten Ansprüchen definiert.
KEY TO FIGURES Fig. 1
101
Eingangs-PDF-Datei
102
Textunterscheidung
Textsegmente
Bildsegmente
104
Textverarbeitung und Mustervergleich
105
Farbe?
Farbbilder
Schwarzweiß- und Graustufenbilder
106
Text extrahieren
108
Bildverarbeitung und Objekterkennung
107
Textverarbeitung und Mustervergleich
109
AIU-Datei erzeugen
110
AIU-Datei
Fig. 2
201
Eingangs-PDF-Datei
202
gesamten Text und ihre Position extrahieren
203
Ist dieser Text Teil eines normalen Absatzes?
No = Nein, Yes = Ja
204
Ist dieser Textteil Teil einer Überschrift?
205
Ist dieser Text Teil einer Unterüberschrift?
206
Kontext dem Text zuordnen
207
kontextabhängiger Mustervergleich
208
AIU-Datei erzeugen
209
teilweise AIU-Datei
Fig. 3a
301
Eingangs-PDF-Datei
302
alle Bilder und ihre Position extrahieren
303
Abgetastet/Maske?
mask = Maske
sampled = abgetastet
304
externes Bild laden
305
Bildpixel abrufen
306
Schwarzweiß/Graustufe/Farbe?
B S/W
B
Grayscale Graustufe
307
Binärisieren
308
Verschmieren
309
Median-Filterung
310
Etikettierung
Fig. 3b
etikettiertes Bild
gefärbtes Bild
311
Randbox berechnen
317
in Blöcke aufteilen und Histogramm berechnen
318
in Blöcke aufteilen und Histogramm berechnen
312
Übereinstimmungsregeln erfüllt?
319
Histogramm vergleichen
313
OCR durchführen
320
Suche verfeinern
314
Musterkorrektur
321
Binärisieren
315
Mustervergleich
322
Korrelation
316
Nicht-Textbereich berechnen
323
beste Übereinstimmung finden
ursprüngliches S/W/Graustufenbild
324
AIU-Datei erzeugen
325
teilweise AIU-Datei

Claims (28)

1. System zum Verarbeiten einer Multimedia-Datei zur Bereitstellung von Informationen zur Unterstützung der Benutzernavigation durch Multimedia-Dateiinhalte, umfassend:
einen Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer Datei;
einen Bildprozessor zum Verarbeiten der identifizierten Bildinhalte, um eingebettete Textinhalte zu identifizieren;
einen Textsortierer zum Parsen des identifizierten Texts und des identifizierten eingebetteten Texts, um Textelemente gemäß vorbestimmten Sortierregeln zu finden; und
Speicher zum Speichern einer Navigationsdatei, die die Textelemente enthält.
2. System nach Anspruch 1, wobei die Navigationsdatei Links zu mindestens einem internen Dokument-Objekt aufweist.
3. System nach Anspruch 1, wobei die Navigationsdatei Links zu mindestens einem externen Dokument-Objekt aufweist.
4. System nach Anspruch 1, wobei der Bildprozessor einen Schwarzweißbildprozessor umfaßt, der folgendes umfaßt:
eine Pixelverschmierkomponente, die Text zu einem rechteckigen Pixelblock reduziert; und
eine Bildfilterkomponente zum Säubern eines verschmierten Bildes.
5. System nach Anspruch 1, wobei der Inhalts-Parser Textextrahierungsregeln anwendet, um Text und eine Dokumentstruktur zu identifizieren, wobei die Dokument­ struktur einen Kontext für identifizierten Text definiert.
6. System nach Anspruch 1, wobei der Inhalts-Parser vordefinierte hierarchische Regeln zur Bestimmung einer Ebene von identifiziertem Text anwendet.
7. System nach Anspruch 1, wobei der Bildprozessor Objektschablonen anwendet, um einen eingebetteten Text zu identifizieren.
8. System nach Anspruch 1, wobei das System während eines Textidentifizierungsprozesses eine Suchauflösung verfeinert, um eine Position des eingebetteten Texts in einem Bild zu bestimmen.
9. System nach Anspruch 1, wobei identifizierter Text Hyperlinks umfaßt.
10. Grafisches Benutzerschnittstellensystem zur Unterstützung der Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen, die die Benutzernavigation durch Multimedia-Dateiinhalte unter­ stützen, umfassend:
einen Menügenerator zum Erzeugen von:
einem oder mehreren Menüs, die die Benutzerauswahl einer zu verarbeitenden Eingangsdatei und eines zu verarbeitenden Formats ermöglichen; und
ein Symbol, das die Benutzereinleitung der Erzeugung einer Navigationsdatei ermöglicht, die das Erstellen von Links für Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten unterstützt, um Text zur Integration in eine Navigationsdatei zu identifizieren.
11. System nach Anspruch 10, wobei identifizierter Text Hyperlinks umfaßt.
12. System nach Anspruch 10, wobei die Navigationsdatei weiterhin Links zu mindestens einem internen Dokument- Objekt umfaßt.
13. Verfahren zum Erzeugen einer verankerbaren Informationseinheit in einem PDF-Dokument, mit den folgenden Schritten:
Extrahieren eines Textsegments aus dem PDF- Dokument;
Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer kontextabhängigen hierarchischen Struktur ausgewählt wird; und
Definieren des Textsegments als eine verankerbare Informationseinheit gemäß dem Kontext.
14. Verfahren nach Anspruch 13, wobei das PDF-Dokument eines oder mehrere Textobjekte, einschließlich eines oder mehrerer Nicht-Textobjekte enthält, wobei die Objekte Textsegmente enthalten.
15. Verfahren nach Anspruch 13, wobei der Schritt des Bestimmens des Kontexts weiterhin die folgenden Schritte umfaßt:
Vergleichen des Textsegments mit mehreren bekannten Mustern in dem PDF-Dokument; und
Bestimmen des Kontexts bei Bestimmung einer Übereinstimmung zwischen dem Textsegment und einem bekannten Muster des PDF-Dokuments.
16. Verfahren nach Anspruch 13, wobei der Schritt des Extrahierens von Text weiterhin die folgenden Schritte umfaßt:
Extrahieren von Text aus einem zugrundeliegenden Bild des PDF-Dokuments;
Bestimmen eines Typs für das Bild, wobei der Typ ein Schwarzweißbild, ein Graustufenbild oder ein Farbbild ist; und
Verarbeiten des Bilds gemäß dem Typ.
17. Verfahren nach Anspruch 13, wobei das PDF-Dokument eine bekannte kontextabhängige hierarchische Struktur enthält.
18. Verfahren nach Anspruch 17, wobei die kontextabhängige hierarchische Struktur, einschließlich der verankerbaren Informationseinheit, durchsuchbar ist.
19. Verfahren nach Anspruch 13, wobei der Kontext eine Position für das extrahierte Textsegment enthält.
20. Verfahren nach Anspruch 13, wobei der Schritt des Bestimmens eines Kontexts weiterhin den Schritt des Bestimmens einer Position und eines Stils des Textdokuments umfaßt.
21. Verfahren nach Anspruch 13, weiterhin mit dem Schritt des Speicherns eines extrahierten Textsegments in einer SGML-Syntax unter Verwendung einer vordefinierten Grammatik.
22. Verfahren nach Anspruch 13, wobei die verankerbare Informationseinheit automatisch mit Hyperlinks versehen wird.
23. Maschinenlesbares Programmspeichergerät, das greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erzeugen einer Datei von verankerbaren Informationseinheiten aus einem PDF-Dokument durchzu­ führen, mit den folgenden Verfahrensschritten:
Parsen des PDF-Dokuments zu Textteilen und Nicht- Textteilen;
Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen;
Bestimmen von Text in den Textteilen und Texten der Nicht-Textteile; und
Erstellen von Hyperlinks für mehrere Schlüssel­ wörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.
24. Programmspeichergerät nach Anspruch 23, wobei der Schritt des Parsens weiterhin den folgenden Schritt umfaßt: Unterscheiden von Farbbildinhalt von Schwarzweiß­ inhalt.
25. Programmspeichergerät nach Anspruch 23, wobei der Schritt des Extrahierens weiterhin die folgenden Schritte umfaßt:
Bestimmen einer Ebene für extrahierte Textteile;
Zuordnen des Kontexts zu dem Text; und
Mustervergleich des extrahierten Texts mit dem PDF-Dokument, um einen Kontext und eine Position zu bestimmen.
26. Programmspeichergerät nach Anspruch 25, wobei die Ebene ein Absatz, eine Überschrift oder eine Unterüberschrift ist.
27. Programmspeichergerät nach Anspruch 25, wobei der Schritt des Mustervergleichs weiterhin die folgenden Schritte umfaßt:
Bestimmen einer Median-Fontgröße für das PDF- Dokument;
Vergleichen einer Fontgröße des extrahierten Texts mit der Median-Fontgröße für das PDF-Dokument; und
Bestimmen eines Kontexts gemäß einer Fontgröße.
28. Programmspeichergerät nach Anspruch 23, wobei der Schritt des Erstellens von Hyperlinks weiterhin den Schritt des Erzeugens der Datei verankerbarer Informationseinheiten umfaßt, wobei die mehreren Schlüsselwörter verankerbare Informationseinheiten sind.
DE10162156A 2000-12-18 2001-12-17 Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren Expired - Fee Related DE10162156B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US25629300P 2000-12-18 2000-12-18
US60/256,293 2000-12-18
US09/996,271 US7013309B2 (en) 2000-12-18 2001-11-28 Method and apparatus for extracting anchorable information units from complex PDF documents
US09/996,271 2001-11-28

Publications (2)

Publication Number Publication Date
DE10162156A1 true DE10162156A1 (de) 2002-07-25
DE10162156B4 DE10162156B4 (de) 2006-06-29

Family

ID=26945263

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10162156A Expired - Fee Related DE10162156B4 (de) 2000-12-18 2001-12-17 Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren

Country Status (2)

Country Link
US (1) US7013309B2 (de)
DE (1) DE10162156B4 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007005937A2 (en) 2005-07-01 2007-01-11 Microsoft Corporation Grammatical parsing of document visual structures
WO2012104583A1 (en) 2011-01-31 2012-08-09 Keywordlogic Limited System for data extraction and processing

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617240B2 (en) * 1999-05-04 2009-11-10 Accenture Llp Component based task handling during claim processing
US7979382B2 (en) 1999-05-04 2011-07-12 Accenture Global Services Limited Component based information linking during claim processing
US20020124029A1 (en) * 2001-03-02 2002-09-05 Gwinn John Glen Method and apparatus for creating, embedding and using a searchable font
EP1466252B1 (de) * 2001-12-21 2009-01-28 Kofax Danmark A/S Verfahren zum transferieren von daten zwischen verschiedenen arten von computersystemen
AU2003280003A1 (en) 2002-10-21 2004-07-09 Leslie Spero System and method for capture, storage and processing of receipts and related data
US8126742B2 (en) 2003-05-09 2012-02-28 Accenture Global Services Limited Automated assignment of insurable events
US8184305B2 (en) * 2003-09-05 2012-05-22 Sharp Laboratories Of America, Inc. PDF image-only dedicated print-flow pipeline structure and processing
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
JP4012140B2 (ja) * 2003-11-20 2007-11-21 キヤノン株式会社 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
US20050151744A1 (en) * 2004-01-09 2005-07-14 Amit Chakraborty Method and apparatus for automated authoring and hyperlinking of VRML documents
US7386789B2 (en) * 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document
US20150066895A1 (en) * 2004-06-18 2015-03-05 Glenbrook Networks System and method for automatic fact extraction from images of domain-specific documents with further web verification
US8799401B1 (en) * 2004-07-08 2014-08-05 Amazon Technologies, Inc. System and method for providing supplemental information relevant to selected content in media
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9384619B2 (en) * 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US7672543B2 (en) * 2005-08-23 2010-03-02 Ricoh Co., Ltd. Triggering applications based on a captured text in a mixed media environment
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US7587412B2 (en) * 2005-08-23 2009-09-08 Ricoh Company, Ltd. Mixed media reality brokerage network and methods of use
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US8369655B2 (en) * 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8949287B2 (en) * 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US8195659B2 (en) * 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US9405751B2 (en) * 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8385589B2 (en) * 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US7639387B2 (en) * 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8144921B2 (en) 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US7920759B2 (en) * 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US9171202B2 (en) * 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8456654B2 (en) * 2004-10-14 2013-06-04 Onstream Systems Limited Process for electronic document redaction
US7880738B2 (en) * 2005-07-14 2011-02-01 Molsoft Llc Structured documents and systems, methods and computer programs for creating, producing and displaying three dimensional objects and other related information in those structured documents
US8316291B1 (en) * 2005-07-28 2012-11-20 Adobe Systems Incorporated Packaging an electronic document and/or a method of displaying the package
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
DE102005052056A1 (de) * 2005-10-31 2007-05-03 Advanced Micro Devices, Inc., Sunnyvale Datenanalyse-Visualisierung mit Hyperlink zu externem Inhalt
US7933786B2 (en) 2005-11-01 2011-04-26 Accenture Global Services Limited Collaborative intelligent task processor for insurance claims
US20070143706A1 (en) * 2005-12-16 2007-06-21 Sap Ag Variable-speed scrollbar
US20070157112A1 (en) * 2005-12-30 2007-07-05 Peters Johan C On-demand scrollbar
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9063952B2 (en) * 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8676810B2 (en) * 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US20080084573A1 (en) * 2006-10-10 2008-04-10 Yoram Horowitz System and method for relating unstructured data in portable document format to external structured data
JP4915219B2 (ja) * 2006-11-24 2012-04-11 富士通株式会社 ハイパーテキスト変換プログラム、方法及び装置
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
US8780381B2 (en) * 2008-02-07 2014-07-15 Konica Minolta Laboratory U.S.A., Inc. Methods for printing multiple files as one print job
US8478769B2 (en) * 2008-02-22 2013-07-02 Accenture Global Services Limited Conversational question generation system adapted for an insurance claim processing system
US8515786B2 (en) * 2008-02-22 2013-08-20 Accenture Global Services Gmbh Rule generation system adapted for an insurance claim processing system
US20090217146A1 (en) * 2008-02-22 2009-08-27 Eugene Goldfarb Page navigation generation system for a customizable application
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US20090307183A1 (en) * 2008-06-10 2009-12-10 Eric Arno Vigen System and Method for Transmission of Communications by Unique Definition Identifiers
US8161023B2 (en) * 2008-10-13 2012-04-17 Internatioanal Business Machines Corporation Inserting a PDF shared resource back into a PDF statement
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
KR101437831B1 (ko) * 2009-08-21 2014-09-05 삼성전자주식회사 다큐먼트 박스를 웹 페이지로 제공하는 방법 및 이를 수행하는 화상형성장치
US8099397B2 (en) * 2009-08-26 2012-01-17 International Business Machines Corporation Apparatus, system, and method for improved portable document format (“PDF”) document archiving
US8922582B2 (en) * 2009-11-16 2014-12-30 Martin J. Murrett Text rendering and display using composite bitmap images
WO2012057891A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Transformation of a document into interactive media content
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
CN102332002B (zh) * 2011-07-28 2013-11-13 深圳市万兴软件有限公司 一种将pdf格式文件转换为epub格式的方法及系统
US8910039B2 (en) * 2011-09-09 2014-12-09 Accenture Global Services Limited File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface
GB201217334D0 (en) 2012-09-27 2012-11-14 Univ Swansea System and method for data extraction and storage
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
US9588971B2 (en) * 2014-02-03 2017-03-07 Bluebeam Software, Inc. Generating unique document page identifiers from content within a selected page region
JP5984880B2 (ja) * 2014-06-27 2016-09-06 京セラドキュメントソリューションズ株式会社 画像処理装置
WO2016061292A1 (en) * 2014-10-17 2016-04-21 SimonComputing, Inc. Method and system for imaging documents in mobile applications
US20160179768A1 (en) * 2014-12-23 2016-06-23 Constant Contact Multichannel authoring and content management system
US10387010B2 (en) 2016-02-12 2019-08-20 Bluebeam, Inc. Method of computerized presentation of a document set view for auditing information and managing sets of multiple documents and pages
JP2017151768A (ja) * 2016-02-25 2017-08-31 富士ゼロックス株式会社 翻訳プログラム及び情報処理装置
US9418315B1 (en) * 2016-03-14 2016-08-16 Sageworks, Inc. Systems, methods, and computer readable media for extracting data from portable document format (PDF) files
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
US10324589B2 (en) 2016-10-25 2019-06-18 International Business Machines Corporation Navigation by usage locations in a document editing application
US11200412B2 (en) * 2017-01-14 2021-12-14 Innoplexus Ag Method and system for generating parsed document from digital document
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
US10572587B2 (en) * 2018-02-15 2020-02-25 Konica Minolta Laboratory U.S.A., Inc. Title inferencer
US10635743B2 (en) * 2018-03-12 2020-04-28 Microsoft Technology Licensing, Llc Automatic extraction of document page numbers from PDF
US20200175268A1 (en) * 2018-11-26 2020-06-04 Javier H. Lewis Systems and methods for extracting and implementing document text according to predetermined formats
WO2020133186A1 (zh) * 2018-12-28 2020-07-02 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN109947996B (zh) * 2019-03-13 2021-02-09 北大方正集团有限公司 文档处理方法和装置
US10949664B2 (en) 2019-04-08 2021-03-16 Kyocera Document Solutions Inc. Optical character recognition training data generation for neural networks by parsing page description language jobs
US11244203B2 (en) * 2020-02-07 2022-02-08 International Business Machines Corporation Automated generation of structured training data from unstructured documents
US11295175B1 (en) 2020-09-25 2022-04-05 International Business Machines Corporation Automatic document separation
US11727215B2 (en) 2020-11-16 2023-08-15 SparkCognition, Inc. Searchable data structure for electronic documents
US11720541B2 (en) 2021-01-05 2023-08-08 Morgan Stanley Services Group Inc. Document content extraction and regression testing
US20230014904A1 (en) * 2021-07-16 2023-01-19 SparkCognition, Inc. Searchable data structure for electronic documents
US11954422B2 (en) * 2021-08-27 2024-04-09 Rock Cube Holdings LLC Systems and methods for structure-based automated hyperlinking
EP4273736A1 (de) * 2022-05-04 2023-11-08 Siemens Energy Global GmbH & Co. KG System und verfahren zur verwaltung von in technischen dokumenten enthaltenen informationen
US20230394221A1 (en) * 2022-06-06 2023-12-07 Microsoft Technology Licensing, Llc Converting a portable document format to a latex format

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734837A (en) 1994-01-14 1998-03-31 Action Technologies, Inc. Method and apparatus for building business process applications in terms of its workflows
US6415307B2 (en) * 1994-10-24 2002-07-02 P2I Limited Publication file conversion and display
US5694594A (en) 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
JPH08297669A (ja) 1994-12-27 1996-11-12 Internatl Business Mach Corp <Ibm> 複合ドキュメント内の複数のパートを自動的にリンクするシステムおよび方法
US5794257A (en) 1995-07-14 1998-08-11 Siemens Corporate Research, Inc. Automatic hyperlinking on multimedia by compiling link specifications
US6374260B1 (en) * 1996-05-24 2002-04-16 Magnifi, Inc. Method and apparatus for uploading, indexing, analyzing, and searching media content
US5995659A (en) 1997-09-09 1999-11-30 Siemens Corporate Research, Inc. Method of searching and extracting text information from drawings
US6344906B1 (en) * 1997-09-16 2002-02-05 Cyberscan Technology, Inc. Universal document scanner controller
US6154754A (en) 1997-09-25 2000-11-28 Siemens Corporate Research, Inc. Automatic synthesis of semantic information from multimedia documents
US6415278B1 (en) * 1997-11-14 2002-07-02 Adobe Systems Incorporated Retrieving documents transitively linked to an initial document
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
US6505191B1 (en) * 1998-07-24 2003-01-07 Jarg Corporation Distributed computer database system and method employing hypertext linkage analysis
JP3646582B2 (ja) * 1998-09-28 2005-05-11 富士通株式会社 電子情報表示方法、電子情報閲覧装置および電子情報閲覧プログラム記憶媒体
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US20010032218A1 (en) * 2000-01-31 2001-10-18 Huang Evan S. Method and apparatus for utilizing document type definition to generate structured documents
AU2001245554A1 (en) * 2000-03-13 2001-09-24 Broadfire Technologies Corporation Information management system
US7958185B2 (en) * 2000-09-18 2011-06-07 Bentley Systems, Inc. Spatial data enabled engineering, construction, and operations computer-aided design (CAD) project system, method and computer program product
WO2003038662A1 (en) * 2001-10-31 2003-05-08 University Of Medicine & Dentistry Of New Jersey Conversion of text data into a hypertext markup language
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007005937A2 (en) 2005-07-01 2007-01-11 Microsoft Corporation Grammatical parsing of document visual structures
EP1894144A2 (de) * 2005-07-01 2008-03-05 Microsoft Corporation Grammatisches analysieren von visuellen strukturen eines dokuments
EP1894144A4 (de) * 2005-07-01 2012-12-26 Microsoft Corp Grammatisches analysieren von visuellen strukturen eines dokuments
WO2012104583A1 (en) 2011-01-31 2012-08-09 Keywordlogic Limited System for data extraction and processing

Also Published As

Publication number Publication date
DE10162156B4 (de) 2006-06-29
US7013309B2 (en) 2006-03-14
US20020118379A1 (en) 2002-08-29

Similar Documents

Publication Publication Date Title
DE10162156B4 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren
DE69434620T2 (de) Verfahren und Gerät zum Herstellen, Indexieren und Anschauen von zusammengefassten Dokumenten
DE10135445B4 (de) Integriertes Verfahren für das Schaffen einer aktualisierbaren Netzabfrage
DE69434434T2 (de) Verfahren und gerät um text- und bilddaten zu synchronisieren, anzeigen und manipulieren
DE69724557T2 (de) Dokumentenanalyse
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
DE19709968C2 (de) Verfahren und System zum Übersetzen eines Dokumentes
Chao et al. Layout and content extraction for pdf documents
DE4311172C2 (de) Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes
US6903751B2 (en) System and method for editing electronic images
DE10308014B4 (de) System und Verfahren zum Lokalisieren eines nichttextlichen Bereichs eines elektronischen Dokumentes oder Bildes, der mit einer benutzerdefinierten Beschreibung des Bereichs übereinstimmt
DE602004006682T2 (de) Extraktion von Metadaten aus gekennzeichneten Bereichen eines Dokuments
DE69637125T2 (de) Optimaler zugriff auf elektronische dokumente
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE69737884T2 (de) Textprozessor
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE602005002473T2 (de) Verfahren zum Erkennen von semantischen Einheiten in einem elektronischen Dokument
DE602004005216T2 (de) Dokumentenscanner
DE102017008430A1 (de) Verfahren und Systeme zum Erzeugen von virtuelle Realität-Umgebungen aus elektronischen Dokumenten
EP1669852B1 (de) Verfahren und Computerprogramm zum Umwandeln eines Eingangs-Dokumentendatenstroms mit einem oder mehreren Dokumenten in eine strukturierte Datendatei
US20040194035A1 (en) Systems and methods for automatic form segmentation for raster-based passive electronic documents
Lovegrove et al. Document analysis of PDF files: methods, results and implications
WO2005119580A1 (de) Verfahren und einrichtung zur strukturanalyse eines dokuments
DE10162418A1 (de) System zur Verarbeitung strukturierter Dokumente, damit sie sich zur Ablieferung über Netzwerke eignen
EP1671262B1 (de) Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee