DE10162156A1

DE10162156A1 - Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle

Info

Publication number: DE10162156A1
Application number: DE10162156A
Authority: DE
Inventors: Amil Chakraborty; Liang-Hua Hsu
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 2000-12-18
Filing date: 2001-12-17
Publication date: 2002-07-25
Anticipated expiration: 2021-12-18
Also published as: DE10162156B4; US7013309B2; US20020118379A1

Abstract

Ein Verfahren zum Extrahieren von verankerbaren Informationseinheiten (AIUs) aus einer PDF-Datei (Portable Document Format), die entweder mit einem Editor oder durch Einscannen von Dokumenten erzeugt werden kann. Das Verfahren umfaßt das Parsen des PDF-Dokuments zu Textteilen und Nicht-Textteilen und das Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen. Das Verfahren umfaßt weiterhin das Bestimmen von Text in Textteilen und das Texten der Nicht-Textteile und das Erstellen von Hyperlinks für mehrere Schlüsselwörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.

Description

HINTERGRUND DER ERFINDUNG 1. Technisches Gebiet

Die vorliegende Erfindung betrifft die Verarbeitung von Multimedia-Dateien zur Bereitstellung von Infor mationen, die die Benutzernavigation durch Multimedia- Dateiinhalte unterstützen.

2. Stand der Technik

Die Nachfrage nach Hypermedia-Anwendungen hat mit der wachsenden Beliebtheit des World Wide Web zugenommen. Als Ergebnis ist ein effektives und automatisches Verfahren zur Erzeugung von Hypermedien notwendig geworden. Die Erzeugung von Hypermedien kann jedoch eine aufwendige und manuell intensive Aufgabe sein. Die Erzeugung von Hypermedien kann insbesondere bei der Bezugnahme auf Inhalte in Dokumenten, wie zum Beispiel Bilder und/oder andere Medien, schwierig sein.

In vielen Fällen müssen die Hypermedia-Autoren verankerbare Informationseinheiten (AIUs - Anchorable Information Units) oder Hotspots finden, die Bereiche oder Schlüsselwörter mit besonderer Bedeutung sind, und entsprechende Hyperlinks zu relevanten Informationen erstellen. In einem elektronischen Dokument kann ein Benutzer zugeordnete Informationen durch Auswählen dieser Hotspots abrufen, während das System die zugeordneten Hyperlinks interpretiert und die entsprechenden relevanten Informationen abruft.

Bei bisherigen Arbeiten auf diesem Gebiet wurden gescannte Bitmap-Bilder als Eingabe für ein Dokumentanalysesystem verwendet. Die Klassifizierung des Dokumentsystems wird häufig von a-priori-Kenntnis der Klasse des Dokuments bestimmt. Es wurde bisher nur wenig an der Verwendung von Postscript-Dateien als Startpunkt für die Dokumentanalyse gearbeitet. Wenn eine Postscript-Datei für maximale Raster-Effizienz ausgelegt ist, kann es sicherlich eine entmutigende Aufgabe sein, auch nur die Lesereihenfolge für das Dokument zu rekonstruieren. Bisherige Forscher haben vielleicht angenommen, daß immer ein gut strukturierter Quellentext verfügbar ist, der mit der Postscript- Ausgabe übereinstimmt, und ein Arbeiten von unten nach oben aus dem Postscript nur selten notwendig sein würde. PDF-Dokumente können jedoch auf vielfältige Weise erzeugt werden, darunter auch eine Route auf der Grundlage der optischen Zeichenerkennung (OCR) direkt aus einer Bitmap-Seite. Die zusätzliche Struktur in PDF über die in Postscript hinaus kann im Hinblick auf das Ziel des Verständnisses des Dokuments ausgenutzt werden.

Bisherige Arbeiten haben Verfahren vorgeschlagen, die mit dem Verstehen von Rasterbildern zusammenhängen. Da diese Aufgabe definitionsgemäß ein Umkehrungsproblem ist, läßt sie sich nicht ohne. umfassende Annahmen durchführen. Eine direkte Anwendung dieser Verfahren auf PDF-Dokumente wäre nur wenig sinnvoll, da sie nicht dafür ausgelegt sind, die zugrundeliegende Struktur von PDF-Dateien auszunutzen und somit unerwünschte Ergebnisse erzeugen.

Im Gegensatz zu der Analyse des geometrischen Layouts wurde der Analyse des logischen Layouts nur sehr wenig Aufmerksamkeit geschenkt. Bestimmte Verfahren für die Analyse des logischen Layouts führen eine Bereichsidentifikation oder -klassifikation in einem abgeleiteten geometrischen Layout durch. Diese Ansätze basieren jedoch im wesentlichen auf Regeln und das Endergebnis hängt somit von der Zuverlässigkeit der vorgegebenen Informationen ab, und davon, wie gut die vorgegebenen Informationen in den Regeln repräsentiert sind.

Systeme wie zum Beispiel Acrobat verfügen nicht über die Möglichkeit, Bilder zu verarbeiten. Stattdessen läßt Acrobat das gesamte Dokument durch ein OCR-System laufen. OCR ist natürlich nicht in der Lage, Objekte zu extrahieren, aber auch im Fall des Verstehens von Text kann die Ausgabe unzuverlässig sein, da Vielzweck-OCR bei Verwendung zum direkten Verstehen eingescannter Bilder fehleranfällig ist.

Deshalb wird ein Verfahren zum Analysieren und Extrahieren von Text aus mit verschiedenen Mitteln erzeugten PDF-Dokumenten benötigt.

KURZE DARSTELLUNG DER ERFINDUNG

Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein System zur Verarbeitung einer Multimedia-Datei bereitgestellt, um Informationen zu liefern, die die Benutzernavigation durch Inhalte von Multimedia-Dateien unterstützen. Das System enthält einen Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer Datei und einen Bildprozessor zum Verarbeiten der identifizierten Bildinhalte zur Identifizierung eingebetteter Textinhalte. Das System enthält ferner einen Textsortierer zum Parsen des identifizierten Texts und des identifizierten eingebetteten Texts, um gemäß vorbestimmter Sortierregeln Textelemente zu finden, und Speicher zum Speichern einer die Textelemente enthaltenden Navigationsdatei.

Die Navigationsdatei weist zu mindestens einem internen Dokument-Objekt Links auf. Die Navigationsdatei weist zu mindestens einem externen Dokument-Objekt Links auf.

Der Bildprozessor enthält einen Schwarzweiß- Bildprozessor mit einer Pixel-Verschmierungskomponente, die Text auf einen rechteckigen Pixelblock reduziert, und eine Bildfilterungskomponente zum Säubern eines verschmierten Bildes.

Der Inhalts-Parser wendet Textextrahierungsregeln an, um Text und eine Dokumentstruktur zu identifizieren, wobei die Dokumentstruktur einen Kontext für identifizierten Text definiert. Der Inhalts-Parser wendet vordefinierte hierarchische Regeln zur Bestimmung einer Ebene von identifiziertem Text an.

Der Bildprozessor wendet Objektschablonen an, um eingebetteten Text zu identifizieren.

Das System verfeinert eine Suchauflösung während eines Textidentifizierungsprozesses, um eine Position des eingebetteten Texts in einem Bild zu bestimmen.

Identifizierter Text umfaßt Hyperlinks.

Gemäß einer anderen Ausführungsform der vorliegenden Erfindung wird ein grafisches Benutzerschnittstellen system bereitgestellt, das die Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen zur Unterstützung der Benutzernavigation durch Multimedia-Dateiinhalte unterstützt. Das grafische Benutzerschnittstellensystem enthält einen Menü generator zum Erzeugen eines oder mehrerer Menüs, die dem Benutzer die Auswahl einer Eingangsdatei und eines Eingangsformats zur Verarbeitung ermöglichen, und eines Symbols, das dem Benutzer die Einleitung der Erzeugung einer Navigationsdatei ermöglicht, die das Erstellen von Links für Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten zur Identifizierung von Text zur Integration in eine Navigationsdatei unterstützt.

Identifizierter Text umfaßt Hyperlinks.

Die Navigationsdatei umfaßt weiterhin Links zu mindestens einem internen Dokument-Objekt.

Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Erzeugung einer verankerbaren Informationseinheit in einem PDF-Dokument (portable document format) bereitgestellt. Das Verfahren umfaßt das Extrahieren eines Textsegments aus dem PDF- Dokument, das Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer kontextabhängigen hierarchischen Struktur ausgewählt wird, und das Definieren des Textsegments als eine verankerbare Informationseinheit gemäß dem Kontext.

Das PDF-Dokument enthält eines oder mehrere Textobjekte und eines oder mehrere Nicht-Textobjekte, wobei die Objekte Textsegmente enthalten.

Das Bestimmen des Kontexts umfaßt das Vergleichen des Textsegments mit mehreren bekannten Mustern in dem PDF- Dokument und das Bestimmen des Kontexts bei Bestimmung einer Übereinstimmung zwischen dem Textsegment und einem bekannten Muster des PDF-Dokuments.

Das Extrahieren von Text umfaßt weiterhin das Extrahieren von Text aus einem Bild des PDF-Dokuments, das Bestimmen eines Bildtyps, wobei der Typ ein Schwarzweißbild, ein Graustufenbild oder ein Farbbild ist, und das Verarbeiten des Bildes gemäß dem Typ.

Das PDF-Dokument enthält eine bekannte kontextabhängige hierarchische Struktur. Die kontextabhängige hierarchische Struktur, einschließlich der veranker baren Informationseinheit, ist durchsuchbar. Der Kontext enthält eine Position der extrahierten Textsegmente. Das Bestimmen des Kontexts umfaßt das Bestimmen einer Position und eines Stils des Textsegments.

Das Verfahren umfaßt weiterhin das Speichern des Textsegments in einer SGML-Syntax (Standard Generalized Markup Language) unter Verwendung einer vordefinierten Grammatik.

Die verankerbare Informationseinheit wird automatisch mit Hyperlinks versehen.

Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zum Erzeugen einer Datei verankerbarer Informationseinheiten aus einem PDF- Dokument bereitgestellt. Das Verfahren umfaßt das Parsen des PDF-Dokuments zu Textteilen und Nicht- Textteilen. Das Verfahren umfaßt weiterhin das Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen und das Bestimmen von Text in den Textteilen, und Texten der Nicht-Textteile. Das Verfahren erstellt Hyperlinks für mehrere Schlüsselwörter in den Textteilen und Nicht-Textteilen zu mindestens einem verwandten Dokument.

Das Parsen umfaßt weiterhin den Schritt des Unterscheidens zwischen Farbbildinhalt, Schwarzweiß inhalt und Graustufeninhalt.

Das Extrahieren umfaßt weiterhin das Bestimmen einer Ebene für extrahierte Textteile, das Zuordnen des Kontexts zu dem Text und einen Mustervergleich von extrahiertem Text mit dem PDF-Dokument zur Bestimmung eines Kontexts. Die Ebene ist ein Absatz, eine Überschrift oder eine Unter-Überschrift. Der Musterver gleich umfaßt die Bestimmung einer Median-Fontgröße für das PDF-Dokument, das Vergleichen einer Fontgröße des extrahierten Texts mit der Median-Fontgröße für das PDF-Dokument und das Bestimmen eines Kontexts gemäß der Fontgröße.

Das Erzeugen von Hyperlinks umfaßt das Erzeugen der Datei verankerbarer Informationseinheiten, wobei die mehreren Schlüsselwörter verankerbare Informations einheiten sind.

Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Programmspeichergerät bereitgestellt, das maschinenlesbar ist und greifbar ein Programm von durch die Maschine ausführbaren Anweisungen zur Durchführung von Verfahrensschritten zum Erzeugen einer Datei verankerbarer Informationseinheiten aus einem PDF- Dokument realisiert.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nachfolgend ausführlicher mit Bezug auf die beigelegten Zeichnungen beschrieben. Es zeigen:

Fig. 1 ein Flußdiagramm einer Übersicht eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer Ausführungsform der vorliegenden Erfindung;

Fig. 2 ein Flußdiagramm eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer Ausführungsform der vorliegenden Erfindung; und

Fig. 3a-b ein Flußdiagramm eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer Ausführungsform der Vorliegenden Erfindung.

Fig. 4 eine grafische Benutzerschnittstellenanzeige, die die Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen zur Verwendung bei der Navigation durch Multimedia-Dateiinhalte gemäß einer Ausführungsform der vorliegenden Erfindung unterstützt.

AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN

Die vorliegende Erfindung liefert ein automatisiertes Verfahren zum Finden von Hotspots in einer PDF-Datei und zum Erzeugen von AIUs mit Querverweisen in Hypermedia-Dokumenten. Zum Beispiel können Textzeichen ketten auf einen relevanten Maschinenteil in einem ein industrielles Instrument beschreibenden Dokument zeigen.

Es versteht sich, daß die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, Spezialprozessoren oder einer Kombination davon implementiert werden kann. Bei einer Ausführungsform kann die vorliegende Erfindung in Software als ein Anwendungsprogramm implementiert werden, das greifbar auf einem Programmspeichergerät realisiert wird. Das Anwendungsprogramm kann auf eine Maschine mit beliebiger geeigneter Architektur heraufgeladen und von dieser ausgeführt werden. Vorzugsweise wird die Maschine auf einer Computerplattform mit Hardware, wie zum Beispiel einer oder mehreren zentralen Verarbeitungseinheiten (CPUs), einem Direktzugriffs speicher (RAM) und Eingangs-/Ausgangs(E/A-) Schnittstelle(n) implementiert. Die Computerplattform enthält außerdem ein Betriebssystem und Mikrobefehlscode. Die verschiedenen hier beschriebenen Prozesse und Funktionen können entweder Teil des Mikrobefehlscodes oder Teil des Anwendungsprogramms (oder einer Kombination dieser) sein, der bzw. das über das Betriebssystem ausgeführt wird. Zusätzlich können verschiedene andere Peripheriegeräte mit der Computerplattform verbunden werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein Druckgerät.

Da ein Teil der in den beigefügten Figuren abgebildeten Systemkomponenten und Verfahrensschritte in Software implementiert werden können, versteht sich weiterhin, daß die tatsächlichen Verbindungen zwischen den Systemkomponenten (oder Prozeßschritten) abhängig von der Art und Weise der Programmierung der vorliegenden Erfindung unterschiedlich sein können. Mit den hier angegebenen Lehren der vorliegenden Erfindung werden Durchschnittsfachleute auf dem betreffenden Gebiet in der Lage sein, diese und ähnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.

Die betrachteten PDF-Dateien können einfachen Text oder allgemeiner eine Mischung von Text und vielfältigen verschiedenen Bildtypen, wie zum Beispiel Schwarzweiß, Graustufen und Farbe enthalten. Gemäß einer Ausführungsform der vorliegenden Erfindung findet das Verfahren die Text- und Nicht-Textbereiche und wendet auf beides verschiedene Verarbeitungsverfahren an. Für die Nicht-Textbereiche werden gemäß dem Typ des darin enthaltenen Bildes verschiedene Bildverarbeitungs verfahren verwendet.

Das Extrahieren von AIUs ist für die Erzeugung von Hypermedia-Dokumenten wichtig. Bei bestimmten PDF- Dateien, z. B. solche, die in einen Computer eingescannt wurden, kann dies jedoch schwierig werden. Gemäß einer Ausführungsform der vorliegenden Erfindung zerlegt das Verfahren das Dokument, um ein Seitenlayout für die zugrundeliegenden Seiten zu bestimmen. Somit können verschiedene Verfahren auf die verschiedenen Teile einer Seite angewandt werden. Ein geometrisches Seitenlayout eines Dokuments ist eine Spezifikation der Geometrie der maximalen homogenen Bereiche und ihrer Klassifikation (Text, Tabelle, Bild, Zeichnung usw.). Die Analyse des logischen Seitenlayouts umfaßt das Bestimmen eines Seitentyps, das Zuweisen von Funktionsetiketten, wie zum Beispiel Titel, Anmerkung, Fußnote, Bildunterschrift usw. auf jeden Block der Seite, das Bestimmen der Beziehungen der Blöcke und das Anordnen der Textblöcke gemäß einer Lesereihenfolge.

OCR hat bei vorbekannten Systemen zur Bestimmung des Dokumentinhalts eine wichtige Rolle gespielt. Dementsprechend wurde die meiste Forschungs aufmerksamkeit OCR gewidmet. Da die Leistung des Dokumentverständnissystems als Ganzes von der vor der OCR stattfindenden Vorverarbeitung abhängt, spielt in diesem Bereich die Seitensegmentierung eine wichtige Rolle.

Die vorliegende Erfindung analysiert das Dokument und extrahiert Informationen aus dem Text und/oder den Figuren, die sich an einer beliebigen Stelle in dem Dokument befinden können. Das Verfahren bestimmt den Kontext, in dem diese Hotspots (z. B. interessierende Objekte oder Textsegmente) erscheinen. Weiterhin sichert das Verfahren diese Informationen auf eine strukturierte Weise, die einer vordefinierten Syntax oder Grammatik folgt, durch die sich das Verfahren auf diese Informationen beziehen kann, während automatische Hyperlinks zwischen verschiedenen Dokumenten und Medientypen erzeugt werden.

Fig. 1 zeigt ein Flußdiagramm der Hauptphasen in dem Prozeß der grafischen Erkennung. Die Eingabe für das System umfaßt eine PDF-Datei 101. Das Verfahren parst die Datei zu Bereichen von Text und Nicht-Text 102. Die Text- und Nicht-Textbereiche werden analysiert, um Struktur- und andere relevante Informationen 103 zu extrahieren. Das Verfahren bestimmt Text in normalen Textblöcken 104 sowie Text in den (etwaigen) Bildern 105-108, wie zum Beispiel Elementnummern in einer technischen Zeichnung. Das Verfahren unterscheidet zwischen Farbbildern und Schwarzweißbildern 105 vor dem Extrahieren von Text aus einem Bild. Diese Textsegmente werden zur Erzeugung von Hyperlinks zu anderen Dokumenten 109-110, zum Beispiel einer anderen PDF- Datei oder beliebigen anderen Medientypen, wie zum Beispiel Audio, Video usw. verwendet.

Um Anwendungsprogrammierer dabei zu unterstützen, Wörter aus PDF-Dateien zu extrahieren, liefert Adobe Systems ein Software-Development-Kit (SDK), das über die Anwendungsprogrammiererschnittstelle (API) von Acrobat®-Viewer-Programmen Zugang zu dem zugrunde liegenden portierbaren Dokumentmodell gibt, das das Viewer-Programm im Speicher hält. Das SDK ist in der Lage, eine Suche nach PDF-Dokumenten durchzuführen. Für die PDF-Dokumente, die direkt aus einem Texteditor, wie zum Beispiel Word von Microsoft oder FrameMaker® von Adobe, erzeugt werden, funktioniert dies recht gut, bei eingescannten Dokumenten kann sich die Leistung jedoch wesentlich verschlechtern. Außerdem kann das SDK bei Dokumenten mit Doppelspalten fehleranfällig sein. SDK wurde im wesentlichen für Dokumente entworfen, die mit einem Texteditor erzeugt wurden. Deshalb war die Leistung mit durch andere Mittel erzeugten Dokumenten keine wichtige Frage. Die vorliegende Erfindung verwendet eine alternative Strategie für eingescannte Dokumente.

Gemäß einer Ausführungsform der vorliegenden Erfindung extrahiert das Verfahren Wörter zusammen mit ihrer Position in dem Dokument und dem Stil, mit dem sie wiedergegeben werden. Das Verfahren bestimmt nicht nur, ob eine Seite ein bestimmtes Wort enthält oder nicht, sondern bestimmt auch seine Position und seinen Kontext, so daß automatisch auf der Grundlage des Inhalts ein Link von der Position zu denselben Medien oder einem anderen erzeugt werden kann.

Mit Bezug auf Fig. 2 extrahiert 202 das Verfahren Text, die Koordinaten des Texts und den Textstil aus einer PDF-Datei 201. Das Verfahren analysiert Parameter der PDF-Datei, um den Kontext des Texts zu bestimmen 203-205. Zu den Parametern gehören u. a. Absätze 203, Überschriften 204 und Unterüberschriften 205. Das Verfahren extrahiert weiterhin Text und zugeordnete Randboxen und Seitennummern. Die Parameter einer Randbox werden aus den extrahierten Koordinaten bestimmt. Das Verfahren ordnet Kontext Text 206 zu. Wenn zum Beispiel die Randbox horizontal mit mehreren anderen Wörtern ausgerichtet ist, z. B. wenn der Text auf ähnlichen Höhen erscheint und Teil einer größeren Gruppe ist, dann bestimmt das Verfahren diesen Text als Teil des normalen Texts (z. B. eines Absatzes) für die Seite, im Gegensatz zum Beispiel zu einer Überschrift.

Das Verfahren bestimmt die Median-Fontgröße für einen Teil des Textdokuments und führt einen kontext abhängigen Mustervergleich 207 durch. Wenn die Fontgröße für einen Teil des Texts größer als der Median ist und wenn der Textteil klein ist, z. B. sich der Text nicht um mehr als eine einzige Zeile erstreckt, bestimmt das Verfahren, daß dies Teil einer Überschrift ist. Bei Bestimmung einer Überschrift prüft das Verfahren die Textebene, z. B. ob sie zu einer Kapitelüberschrift, einer Abschnittsüberschrift, einem Unterabschnitt usw. gehört. Die Textebene kann auch aus den verwendeten relativen Fontgrößen und Offsets von dem rechten und linken Rand, falls vorhanden, bestimmt werden.

Nachdem das Verfahren alle Textinformationen bezüglich der Organisation des Dokuments bestimmt hat, verwendet das Verfahren Organisationsinformationen zum wählbaren Erzeugen von verankerbaren Informationseinheiten (AIUs) 208-209 oder Hotspots. Das Verfahren erzeugt automatisch oder halbautomatisch diese Hotspots auf eine kontextabhängige nichtredundante Weise auf der Grundlage der Organisationsinformationen.

Die vorliegende Erfindung liefert ein Verfahren zum Extrahieren von Bildern. Dieses Problem wird dadurch schwierig, daß Text möglicherweise nicht von Polylinien unterschieden werden kann, die die zugrundeliegenden Linienzeichnungen bilden. Obwohl das Entwickeln eines allgemeinen Verfahrens; das für alle Arten von Linienzeichnungsbildern funktionieren würde, schwierig ist, verwendet die vorliegende Erfindung zugrunde liegende Strukturen der betreffenden Dokumente. Die vorliegende Erfindung findet Bilder gemäß der Geometrie und Länge der Textzeichenketten. Diese lokalisierten Bereiche werden mit OCR-Software analysiert, um den Textinhalt zu extrahieren.

Mit Bezug auf Fig. 3a und 3b extrahiert das Verfahren Bilder und ihre Position 302 aus einer PDF-Datei 301. In PDF-Dateien kähnen verschiedene Arten von Bildern codiert werden, darunter Schwarzweiß-, Graustufen- und Farbbilder. Interessierende Objekte können in beliebigen dieser Bilder codiert werden. Zum Beispiel kann ein Schwarzweißbild dazu dienen, eine CAD- Zeichnung (computer aided design) zu codieren. CAD- Bilder können zum Beispiel Diagramme vordefinierter Objekte oder Textsegmente enthalten, die sich auf wichtige Informationen, wie zum Beispiel Maschinen teile, beziehen können. Andere Bilder sind zum Beispiel Beschreibungen von Maschinenteilen, insbesondere, wenn die Dokumente von technischer Natur sind.

Bei PDF wird ein Bild als Xobjekt bezeichnet, dessen Subtyp Image ist. Bilder ermöglichen einen Inhaltsstrom zur Spezifikation eines abgetasteten Bildes oder einer Bildmaske. Das Verfahren bestimmt den Typ des Bildes 303. PDF ermöglicht Bildmasken, z. B. 1-Bit-, 2-Bit-, 4- Bit- und 8-Bit-Graustufenbilder und Farbbilder mit 1, 2, 4 oder 8 Bit pro Komponente. Eine Bildmaske, wie zum Beispiel ein externes Bild, kann in die PDF-Datei eingebettet werden. Für eingebettete Bilder bestimmt das Verfahren einen Bezug auf dieses Bild und auf der Grundlage des Bildtyps und des Dateiformats kann ein entsprechendes Decodierungsverfahren verwendet werden, um das Bild zu extrahieren und es zu verarbeiten 304. Wenn es sich um ein abgetastetes Bild handelt, dann werden die Bildpixelwerte jedoch direkt in der PDF- Datei auf bestimmte codierte Weise gespeichert. Die Bildpixelwerte können zunächst decodiert und dann verarbeitet werden 305.

Das Verfahren vereinfacht die Bilder, um Textzeichenketten zu extrahieren 306. Die Graustufenbilder werden durch Schwellenverfahren in Schwarzweißbilder umgesetzt 307. Das Verfahren sucht nach Textzeichenketten entweder in Graustufen- oder Schwarzweißbildern. Wenn das Bild nicht farbig ist, wird es somit auf Schwarzweiß reduziert.

Für die Schwarzweißbilder verschmiert das Verfahren das Bild 308. In einer willkürlichen Kette von Schwarzweiß- Pixeln ersetzt das Verfahren weiße Pixel durch schwarze Pixel, wenn die Anzahl angrenzender weißer Pixel zwischen zwei schwarzen Pixeln kleiner als eine vorbestimmte Konstante ist. Diese Konstante hängt mit der Fontgröße zusammen und kann vom Benutzer definiert werden. Diese Operation wird hauptsächlich in der horizontalen Richtung eingesetzt. Die Operation schließt die Lücken, die zwischen verschiedenen Buchstaben in einem Wort bestehen, und ein Wort auf einen rechteckigen Block schwarzer Pixel reduzieren können. Sie wirkt sich jedoch auch auf Linienzeichnungen auf ähnliche Weise aus. Der Unterschied besteht hier darin, daß durch die Beschaffenheit ihrer Erscheinung Textwörter nach der Operation rechteckig mit einer bestimmten Höhe (für horizontalen Text) und Breite ausschauen (unter der Annahme, daß die in einer technischen Zeichnung erscheinenden Teilenummern wahrscheinlich eine bestimmte Länge aufweisen). Die Linienzeichnungen erzeugen jedoch unregelmäßige Muster, durch die sie von dem zugeordneten Text unterscheidbar werden.

Das Verfahren säubert das resultierende Bild durch Verwendung einer Median-Filterung 309 zur Entfernung kleiner Inseln oder Gruppen von schwarzen Pixeln. Das Verfahren gruppiert die horizontalen Läufe schwarzer Pixel zu Gruppen, die durch weiße Zwischenräume getrennt werden, und ordnet ihnen Etiketten zu 310. Das Verfahren berechnet eine Randbox 311 für jede Gruppe und berechnet Merkmale wie zum Beispiel Breite, Höhe, Seitenverhältnis und Pixeldichte, z. B. das Verhältnis der Anzahl schwarzer Pixel zu der Fläche der Randbox.

Das Verfahren implementiert Regeln 312 zur Bestimmung, ob sich in der Randbox Text befindet, und falls dies so ist, ob der Text interessiert. Durch eine Schwellentechnik schließt das Verfahren Bereiche aus, die entweder zu groß oder zu klein sind. Das Verfahren sucht nach einem Wort oder zwei, die eine Kennung bilden, wie zum Beispiel eine Teilenummer oder einen Teilenamen. Das Verfahren schließt außerdem Bereiche aus, deren Beschaffenheit, wie durch das Seitenverhältnis Breite/Höhe definiert, nicht recht eckig sondern quadratisch ist, da Wörter normalerweise mehrere Zeichen lang sind und eine Höhe von einem Zeichen aufweisen. Das Verfahren schließt außerdem Bereiche aus, die relativ leer sind, z. B. schwarze Pixel, die auf ziemlich unregelmäßge nicht rechteckige Weise verbunden sind. Dies ist eine Eigenschaft von Limienzeichnungen und ist nur unwahrscheinlich Textzeichenketten zugeordnet. Die Grenzen in dem obigen sind bereichsabhängig, und der Benutzer ist in der Lage, diese auf der Grundlage der Eigenschaften des verarbeiteten Dokuments zu wählen und zu modifizieren.

Nach der Identifizierung der plausiblen Textbereiche verwendet das Verfahren ein OCR-Toolkit 313 zur Identifizierung des ASCII-Texts, der die oben identifizierten plausiblen Bereiche charakterisiert. Nachdem das Verfahren den Text bestimmt hat, dient ein Mustervergleichsverfahren 314 zur Korrektur von Fehlern, die während der Erkennung durch die OCR verursacht worden sein können. Zum Beispiel könnte die OCR falscherweise den Buchstaben "o" durch die Ziffer "0" ersetzt haben. Wenn dem Verfahren der Kontext bewußt ist, können solche Fehler korrigiert werden.

Das Verfahren behält interessierende Wörter und/oder Phrasen und sichert sie in einer AIU-Datei. Wenn das Verfahren den interessierenden Text extrahiert und gesichert hat, werden in den Bildern 316 etwaige Objektteile identifiziert.

Um die Geschwindigkeit des Verfahrens zu vergrößern, werden die Nicht-Textbereiche des Bildes zu Blöcken geparst. Ein Histogramm der Pixel-Grauwert- oder Farbwerte in diesen Blöcken 317-318 wird dann analysiert. Bei einem Farbbild analysiert das Verfahren ein Histogramm für das gesamte Bild.

Das Verfahren implementiert Schablonen von Objekten, nach denen in dem Bild gesucht wird. Das Verfahren parst die Schablone zu Blöcken und bestimmt ein Histogramm für die Blöcke. Das Verfahren bestimmt Positionen in dem ursprünglichen Bild von Blöcken, die eine ähnliche Histogramm-Signatur wie die der Schablone aufweisen. Wenn eine Übereinstimmung bestimmt wird 319, führt das Verfahren eine sorgfältigere Pixelkorrelation 320 durch, um die genaue Position zu bestimmen.

Das Verfahren kann mit einer niedrigen Auflösung beginnen, zum Beispiel unter Verwendung von 32 × 32- Blöcken. Wenn eine Übereinstimmung gefunden wird, kann das Verfahren mit einer höheren Auflösung, z. B. 16 × 16, neu iterieren. Nach der Neuiteration auf einen Maßstab von zum Beispiel 8 × 8, korreliert das Verfahren die Schablone mit dem Original, um eine Position einer wünschenswerten Übereinstimmung zu finden. Vor der Durchführung einer Korrelation binärisiert das Verfahren jedoch das Bild 321, wenn es nicht bereits in binärer Form vorliegt, durch Berechnen von Rändern. Für das binärisierte Bild führt das Verfahren eine Korrelation für die Ränder durch. Somit kann das Verfahren die für die Verarbeitung eines Bildes benötigte Verarbeitungsmenge reduzieren.

Übereinstimmungen werden mit einer Schwelle 323 bestimmt, die auf 0,6 × N_e gesetzt werden kann, wobei N_e die Anzahl von Randpunkten in der Schablone ist. Das Verfahren bestimmt die Informationen, die sowohl für die Text- als auch die Nicht-Textteile der PDF-Dateien benötigt werden, und die zusammengestellten Informationen werden unter Verwendung einer SGML- Sprache (Standard Generalized Markup Language) in AIU- Dateien 324-325 gespeichert. Mit SGML-Syntax kann man Hyperlinks zu anderen Teilen desselben Dokuments oder zu anderen Dokumenten oder unähnlichen Medientypen erzeugen.

Gemäß einer Ausführungsform der vorliegenden Erfindung wird die Struktur von PDF-Dokumenten in SGML definiert. Die Strukturinformationen können zur Erfassung der aus einem PDF extrahierten Informationen verwendet werden. Die aus dem PDF extrahierten Objekte werden als verankerbare Informationseinheiten (AIUs) bezeichnet. Da aus einefft PDF-Dokument extrahierte Informationen als eine Instanz der PDF-AIU-Dokumenttypendefinition (DTD) dargestellt werden und somit gut strukturiert sind, kann das Verfahren automatisch Hyperlinks zwischen den PDF-Dokumenten und anderen Arten von Dokumenten erzeugen. Wenn der Benutzer während des Browsens das Objekt anklickt, kann deshalb das entsprechende Link navigiert werden, um das gewünschte Ziel zu erreichen.

Nach der Verarbeitung wird jede PDF-Datei einer AIU- Datei zugeordnet, die aus der PDF-Datei extrahierte relevante Informationen enthält. Die AIU-Datei wird auf hierarchische Weise folgendermaßen definiert:

An der Wurzel umfaßt die AIUDoc-Definition die Kopf-, Fuß- und die extrahierten Informationen in dem Feld PdfDocX.

Die Definition des DocHeader wird gegeben als:

und die Felder in dem PdfDocX werden gegeben durch (diese Felder werden später definiert):

Das Feld PdfSeg, das die Abschnitte charakterisiert, wird definiert als:

während die Felder PdfSeg2, die die Segmente in diesem Dokument sind, folgendermaßen definiert werden:

die AIUs werden mit den folgenden Feldern definiert:

Eine AIU-Datei ist somit eine Folge von einem oder mehreren parsbaren Zeichendatenelementen. In dem Beispiel umfassen die Zeichendaten eine Kette von ASCII-Zeichen und -Nummern. Während die verschiedenen für PDF-ATUs relevanten Attribute oben aufgelistet wurden, können zusätzliche Attribute für AIUs relevant sein, die andere Medientypen betreffen. Wie bereits erwähnt, strukturiert das Verfahren das PDF-Dokument auf hierarchische Weise. An der Wurzel befindet sich das gesamte Dokument. Das Dokument wird in Teildokumente zerlegt. Die AIU-Datei beginnt mit einer Beschreibung des Typs des zugrundeliegenden Medientyps, in diesem Fall PDF. Der Dokumentkopf enthält vier verschiedene Felder, darunter den zugrundeliegenden PDF-Dateinamen, eine eindeutige Kennung für die gesamte PDF-Datei, eine Dokument-Typendefinition, die den Kontext der PDF-Datei erläutert, und eine spezifischere Dokumentbeschreibung, die den Inhalt der PDF-Datei erläutert.

Die aus der PDF-Datei extrahierten Informationen werden in der PDFDocX-Struktur gespeichert. Die PDFDocX- Struktur enthält eine eindeutige Kennung, die aus der Kennung der PDF-Datei selbst abgeleitet wird. Das PDF- Dokument wird auf hierarchische Weise unter Verwendung von Teildokumenten und Segmenten organisiert. Die Segmente weisen die folgenden Attribute auf. Wiederum gibt es eine eindeutige Kennung für jedes Segment. Die Anfangs- und Endpositionen dieser Segmente definieren das Ausmaß dieser Abschnitte. Auf der Grundlage der Anforderungen und Größe des Dokuments können auch weitere Attribute verwendet werden.

Die PDF-AIUs enthalten eine eindeutige Kennung. Die PDF-AIUs können die folgenden Typen aufweisen: Rechteck, Ellipse und Polygon. Jede AIU hat außerdem einen eindeutigen Namen. Das Feld BoundaryCoords beschreibt die Koordinaten des zugrundeliegenden interessierenden Objekts und definiert die Randbox. Das Seitenfeld beschreibt die Seitenposition des zugrundeliegenden Dokuments. Im Fall von Rechtecken und Ellipsen werden die obere linke und untere rechte Ecke der Randbox definiert. Im Fall eines Polygons werden alle Knoten definiert.

Es folgt ein Beispiel für eine PDFAIU-Datei. Die Link- Definition wird in dem folgenden Teilabschnitt beschrieben.

Das Erzeugen von Hyperlinks für die PDF-AIUs kann manuell oder auf automatisierte Weise geschehen. Manuelle Links können während der oben beschriebenen AIU-Umgrenzungsphase eingefügt werden. Da die aus PDF extrahierten Informationen bei einer Ausführungsform der vorliegenden Erfindung jedoch in wohlstrukturierten AIU-Dateien gespeichert werden, enthält das Verfahren einen automatischen Hyperlinker zum automatischen Erstellen von Hyperlinks für PDF-AIUs zu allen anderen Typen von Dokumenten auf der Grundlage von Hyperlink- Spezifikationen. Das heißt, der Hyperlinker verarbeitet Link-Spezifikationen, führt an den Inhalten und Strukturen der Dokumente einen Mustervergleich durch und richtet Links zwischen Quellen und Zielen ein. Außerdem ist es wichtig, wie die Link-Informationen in den AIU-Dateien codiert werden. Jedes der codierten Objekte kann potentiell ein Link aufweisen. Da die SGML-Struktur für die AIU-Dateien verwendet wurde und Links Entitäten in dieser Datei sind, werden Links auch unter Verwendung einer ähnlichen SGML-Struktur definiert. Die Definition und die Felder werden nachfolgend angegeben:

Type definiert den Typ des Ziels, z. B. wenn es sich um Text oder Bild oder Video usw. handelt. Focus definiert den Text, der am Link-Ziel hervorgehoben wird. Book stellt das Buch dar, von dem Ziel Teil ist. Da die Hauptanwendung ein Handbuch mit Hyperlinks ist, werden sie in dem Beispiel als ein hierarchischer Baum organisiert, wobei jedes Handbuch als ein Buch dargestellt wird. Linkend, das wichtigste Attribut, enthält die Zielinformationen. Linkld ist ein Index zu der Datenbank, wenn das Ziel darauf zeigt. LinkruleId hat angezeigt, welche Regel dieses Link erzeugt hat. SubType ähnelt der Type-Definition in der obigen AIU- Spezifikation. Labels gibt eine Beschreibung des Link- Ziels. Es kann auch weitere Attribute geben.

Im folgenden wird eine Instanz einer AIU-Datei mit Hyperlinks bereitgestellt. Das heißt, Link-Elemente können manuell oder automatisch PDF-AIUs hinzugefügt werden, die während des Abspielens mit Hyperlinks zu ihren Zielen versehen werden sollen.

Die SGML-Dokumente (einschließlich der AIU-Dateien) werden mit dem SGML-Indexer vorindiziert. Dies umfaßt eine Wörterbuchauflistung von jedem SGML-Element in der Reihenfolge, in der sie in der Dokumentation erscheinen, und einen Index in dieses Wörterbuch. Auf der Grundlage der benutzerdefinierten Link- Spezifikationen werden Links unter Verwendung eines Mustervergleichs an diesen Wörterbuchdateien erzeugt. Für die PDF-AIUs können Links zu und von diesen auf diese Weise erzeugt werden. Der Hauptpunkt, der bezüglich des Hyperlinkers zu beachten ist, besteht darin, daß das Verfahren in der Lage ist, diese Maschinerie in dem PDFAIU-Erstellungssystem zu verwenden, indem es in der Lage ist, die PDF- Informationen mit Hilfe der AIU-Spezifikationssprache wie bereits erläutert zu strukturieren. Dadurch kann das Verfahren außerdem ein Hyperlink-Managementsystem implementieren, das Link-Regeln inkrementell aktualisieren kann. Die Link-Manager-Software, die diese Link-Datenbank zum Verfolgen von Link- Regeländerungen durch Verwendung von Zeitstempeln verwendet, tut dies. Das inkrementelle Erstellen von Hyperlinks erfolgt entweder durch Verändern bestehender Link-Spezifikationen oder durch Hinzufügen bestimmter zusätzlicher Link-Spezifikationen. Beim Hinzufügen < neuer Link-Spezifikationen führt der Hyperlinker die neue Link-Spezifikation an allen Dokumenten aus, fügt neue Links hinzu, ohne die alten zu zerstören. Wenn ein Link auf der Grundlage der Id des alten Links überholt wird, werden die alten Links entfernt. Eine ähnliche Prozedur wird beim Hinzufügen neuer Links verwendet.

Nach der Erstellung der Hyperlinks ist es wichtig, in der Lage zu sein, die gewünschten Funktionen beim Betrachten zu erhalten. Die derzeitige Implementierung modifiziert den Adope Acrobat® Reader™ und verwendet eine spezielle Software zur Erzielung der Kommunikation zwischen Prozessen über einen Link-Manager. Wenn dem Viewer-Programm dann ein Befehl gegeben wird, eine bestimmte PDF-Datei zu laden, schaut es während des Ladens außerdem nach, ob eine AIU-Datei für diese Datei verfügbar ist. Wenn dies der Fall ist, wird diese ebenfalls zusammen mit der ursprünglichen Datei geladen. Für jeden Eintrag wird in der AIU-Datei ein Rand um das interessierende Objekt gezeichnet. Wenn der Benutzer ein beliebiges der Objekte anklickt, kommuniziert das Viewer-Programm mit dem Link-Manager mit der entsprechenden Link-Kennung. Der Link-Manager führt dann das Link-Ziel aus. In einer Multimedia- Dokumentationsumgebung bedeutet dies häufig ein Springen zu einem bestimmten Punkt des Texts oder das Zeigen eines detaillierten Bildes des in Frage stehenden Objektes. In diesem Fall springt der SGML- Browser zu diesem Punkt in dem SGML-Dokument.

Fig. 4 zeigt eine grafische Benutzerschnittstellen anzeige, die die Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen zur Verwendung bei der Navigation durch Multimedia-Dateiinhalte unterstützt. Die Benutzerauswahl des Symbols 400 gestattet dem Benutzer die Einleitung der Erzeugung einer Navigationsdatei, die das Erstellen von Links von Eingangsdateielementen zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten zur Identifizierung von Text zur Integration in eine Navigationsdatei unterstützt. Als Reaktion auf die Benutzerauswahl des Symbols 400 werden außerdem Elemente in Menüs aktiviert, die bei der Auswahl eines Elements der Toolbars 405 und 410 durch den Benutzer erzeugt werden. Genauer gesagt wird als Reaktion auf die Benutzerauswahl des Symbols 415 ein Menü erzeugt, das dem Benutzer die Auswahl einer zu verarbeitenden Eingangsdatei und eines zu verarbeitenden Formats ermöglicht.

Nach der Beschreibung von Ausführungsformen für ein Verfahren zum Extrahieren verankerbarer Informations einheiten aus PDF-Dateien soll bemerkt werden, daß Fachleute im Hinblick auf die obigen Lehren Modifikationen und Varianten herstellen können. Es versteht sich deshalb, daß an den offengelegten konkreten Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die in dem Schutzumfang und Gedanken der Erfindung liegen, der durch die angefügten Ansprüche definiert wird. Nach dieser Beschreibung der Erfindung mit den von den Patentgesetzen geforderten Einzelheiten und Genauigkeiten wird der Schutzumfang des Patents nunmehr in den angefügten Ansprüchen definiert.

KEY TO FIGURES Fig. 1

101

Eingangs-PDF-Datei

102

Textunterscheidung
Textsegmente
Bildsegmente

104

Textverarbeitung und Mustervergleich

105

Farbe?
Farbbilder
Schwarzweiß- und Graustufenbilder

106

Text extrahieren

108

Bildverarbeitung und Objekterkennung

107

Textverarbeitung und Mustervergleich

109

AIU-Datei erzeugen

110

AIU-Datei

Fig. 2

201

Eingangs-PDF-Datei

202

gesamten Text und ihre Position extrahieren

203

Ist dieser Text Teil eines normalen Absatzes?
No = Nein, Yes = Ja

204

Ist dieser Textteil Teil einer Überschrift?

205

Ist dieser Text Teil einer Unterüberschrift?

206

Kontext dem Text zuordnen

207

kontextabhängiger Mustervergleich

208

AIU-Datei erzeugen

209

teilweise AIU-Datei

Fig. 3a

301

Eingangs-PDF-Datei

302

alle Bilder und ihre Position extrahieren

303

Abgetastet/Maske?
mask = Maske
sampled = abgetastet

304

externes Bild laden

305

Bildpixel abrufen

306

Schwarzweiß/Graustufe/Farbe?
B S/W
B
Grayscale Graustufe

307

Binärisieren

308

Verschmieren

309

Median-Filterung

310

Etikettierung

Fig. 3b

etikettiertes Bild
gefärbtes Bild

311

Randbox berechnen

317

in Blöcke aufteilen und Histogramm berechnen

318

in Blöcke aufteilen und Histogramm berechnen

312

Übereinstimmungsregeln erfüllt?

319

Histogramm vergleichen

313

OCR durchführen

320

Suche verfeinern

314

Musterkorrektur

321

Binärisieren

315

Mustervergleich

322

Korrelation

316

Nicht-Textbereich berechnen

323

beste Übereinstimmung finden
ursprüngliches S/W/Graustufenbild

324

AIU-Datei erzeugen

325

teilweise AIU-Datei

Claims

1. System zum Verarbeiten einer Multimedia-Datei zur Bereitstellung von Informationen zur Unterstützung der Benutzernavigation durch Multimedia-Dateiinhalte, umfassend:
einen Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer Datei;
einen Bildprozessor zum Verarbeiten der identifizierten Bildinhalte, um eingebettete Textinhalte zu identifizieren;
einen Textsortierer zum Parsen des identifizierten Texts und des identifizierten eingebetteten Texts, um Textelemente gemäß vorbestimmten Sortierregeln zu finden; und
Speicher zum Speichern einer Navigationsdatei, die die Textelemente enthält.

2. System nach Anspruch 1, wobei die Navigationsdatei Links zu mindestens einem internen Dokument-Objekt aufweist.

3. System nach Anspruch 1, wobei die Navigationsdatei Links zu mindestens einem externen Dokument-Objekt aufweist.

4. System nach Anspruch 1, wobei der Bildprozessor einen Schwarzweißbildprozessor umfaßt, der folgendes umfaßt:
eine Pixelverschmierkomponente, die Text zu einem rechteckigen Pixelblock reduziert; und
eine Bildfilterkomponente zum Säubern eines verschmierten Bildes.

5. System nach Anspruch 1, wobei der Inhalts-Parser Textextrahierungsregeln anwendet, um Text und eine Dokumentstruktur zu identifizieren, wobei die Dokument struktur einen Kontext für identifizierten Text definiert.

6. System nach Anspruch 1, wobei der Inhalts-Parser vordefinierte hierarchische Regeln zur Bestimmung einer Ebene von identifiziertem Text anwendet.

7. System nach Anspruch 1, wobei der Bildprozessor Objektschablonen anwendet, um einen eingebetteten Text zu identifizieren.

8. System nach Anspruch 1, wobei das System während eines Textidentifizierungsprozesses eine Suchauflösung verfeinert, um eine Position des eingebetteten Texts in einem Bild zu bestimmen.

9. System nach Anspruch 1, wobei identifizierter Text Hyperlinks umfaßt.

10. Grafisches Benutzerschnittstellensystem zur Unterstützung der Verarbeitung einer Multimedia-Datei zur Bereitstellung von Informationen, die die Benutzernavigation durch Multimedia-Dateiinhalte unter stützen, umfassend:
einen Menügenerator zum Erzeugen von:
einem oder mehreren Menüs, die die Benutzerauswahl einer zu verarbeitenden Eingangsdatei und eines zu verarbeitenden Formats ermöglichen; und
ein Symbol, das die Benutzereinleitung der Erzeugung einer Navigationsdatei ermöglicht, die das Erstellen von Links für Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren von Text- und Bildinhalten unterstützt, um Text zur Integration in eine Navigationsdatei zu identifizieren.

11. System nach Anspruch 10, wobei identifizierter Text Hyperlinks umfaßt.

12. System nach Anspruch 10, wobei die Navigationsdatei weiterhin Links zu mindestens einem internen Dokument- Objekt umfaßt.

13. Verfahren zum Erzeugen einer verankerbaren Informationseinheit in einem PDF-Dokument, mit den folgenden Schritten:
Extrahieren eines Textsegments aus dem PDF- Dokument;
Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer kontextabhängigen hierarchischen Struktur ausgewählt wird; und
Definieren des Textsegments als eine verankerbare Informationseinheit gemäß dem Kontext.

14. Verfahren nach Anspruch 13, wobei das PDF-Dokument eines oder mehrere Textobjekte, einschließlich eines oder mehrerer Nicht-Textobjekte enthält, wobei die Objekte Textsegmente enthalten.

15. Verfahren nach Anspruch 13, wobei der Schritt des Bestimmens des Kontexts weiterhin die folgenden Schritte umfaßt:
Vergleichen des Textsegments mit mehreren bekannten Mustern in dem PDF-Dokument; und
Bestimmen des Kontexts bei Bestimmung einer Übereinstimmung zwischen dem Textsegment und einem bekannten Muster des PDF-Dokuments.

16. Verfahren nach Anspruch 13, wobei der Schritt des Extrahierens von Text weiterhin die folgenden Schritte umfaßt:
Extrahieren von Text aus einem zugrundeliegenden Bild des PDF-Dokuments;
Bestimmen eines Typs für das Bild, wobei der Typ ein Schwarzweißbild, ein Graustufenbild oder ein Farbbild ist; und
Verarbeiten des Bilds gemäß dem Typ.

17. Verfahren nach Anspruch 13, wobei das PDF-Dokument eine bekannte kontextabhängige hierarchische Struktur enthält.

18. Verfahren nach Anspruch 17, wobei die kontextabhängige hierarchische Struktur, einschließlich der verankerbaren Informationseinheit, durchsuchbar ist.

19. Verfahren nach Anspruch 13, wobei der Kontext eine Position für das extrahierte Textsegment enthält.

20. Verfahren nach Anspruch 13, wobei der Schritt des Bestimmens eines Kontexts weiterhin den Schritt des Bestimmens einer Position und eines Stils des Textdokuments umfaßt.

21. Verfahren nach Anspruch 13, weiterhin mit dem Schritt des Speicherns eines extrahierten Textsegments in einer SGML-Syntax unter Verwendung einer vordefinierten Grammatik.

22. Verfahren nach Anspruch 13, wobei die verankerbare Informationseinheit automatisch mit Hyperlinks versehen wird.

23. Maschinenlesbares Programmspeichergerät, das greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erzeugen einer Datei von verankerbaren Informationseinheiten aus einem PDF-Dokument durchzu führen, mit den folgenden Verfahrensschritten:
Parsen des PDF-Dokuments zu Textteilen und Nicht- Textteilen;
Extrahieren von Struktur aus den Textteilen und den Nicht-Textteilen;
Bestimmen von Text in den Textteilen und Texten der Nicht-Textteile; und
Erstellen von Hyperlinks für mehrere Schlüssel wörter in den Textteilen und den Nicht-Textteilen zu einem verwandten Dokument.

24. Programmspeichergerät nach Anspruch 23, wobei der Schritt des Parsens weiterhin den folgenden Schritt umfaßt: Unterscheiden von Farbbildinhalt von Schwarzweiß inhalt.

25. Programmspeichergerät nach Anspruch 23, wobei der Schritt des Extrahierens weiterhin die folgenden Schritte umfaßt:
Bestimmen einer Ebene für extrahierte Textteile;
Zuordnen des Kontexts zu dem Text; und
Mustervergleich des extrahierten Texts mit dem PDF-Dokument, um einen Kontext und eine Position zu bestimmen.

26. Programmspeichergerät nach Anspruch 25, wobei die Ebene ein Absatz, eine Überschrift oder eine Unterüberschrift ist.

27. Programmspeichergerät nach Anspruch 25, wobei der Schritt des Mustervergleichs weiterhin die folgenden Schritte umfaßt:
Bestimmen einer Median-Fontgröße für das PDF- Dokument;
Vergleichen einer Fontgröße des extrahierten Texts mit der Median-Fontgröße für das PDF-Dokument; und
Bestimmen eines Kontexts gemäß einer Fontgröße.

28. Programmspeichergerät nach Anspruch 23, wobei der Schritt des Erstellens von Hyperlinks weiterhin den Schritt des Erzeugens der Datei verankerbarer Informationseinheiten umfaßt, wobei die mehreren Schlüsselwörter verankerbare Informationseinheiten sind.