Recherche Images Maps Play YouTube Actualités Gmail Drive Plus »
Connexion
Les utilisateurs de lecteurs d'écran peuvent cliquer sur ce lien pour activer le mode d'accessibilité. Celui-ci propose les mêmes fonctionnalités principales, mais il est optimisé pour votre lecteur d'écran.

Brevets

  1. Recherche avancée dans les brevets
Numéro de publicationDE19536170 A1
Type de publicationDemande
Numéro de demandeDE1995136170
Date de publication3 avr. 1997
Date de dépôt29 sept. 1995
Date de priorité29 sept. 1995
Numéro de publication1995136170, 95136170, DE 19536170 A1, DE 19536170A1, DE-A1-19536170, DE19536170 A1, DE19536170A1, DE1995136170, DE95136170
InventeursWinfried Bruegmann
DéposantIbm
Exporter la citationBiBTeX, EndNote, RefMan
Liens externes: DPMA (Office allemand des brevets et des marques), Espacenet
Image thresholding for optical character recognition
DE 19536170 A1
Résumé
The thresholding involves processing the image qualities of the sheet. The image is scanned with a preselected threshold value or a black/white or gray scale image is formed. The image characteristics are analysed, the image data, image content and image distortions, selective for specific areas of the image or for the entire image. The spatial and local spread of the image characteristics are analysed. A threshold value from the results of the analysis is transmitted. The threshold value is selected on the basis that the required image has a more pronounced amplitude and distribution characteristic. The area scanned yield signals ABC that relate to the required signature signal A, background B and image distortion effects C.
Revendications(17)  Langue du texte original : Allemand
1. Verfahren zur Ermittlung eines Schwellwertes für die Erzeugung eines elektronischen Bildes ( 50 ) von einer Vorlage ( 10 ), mit: 1. A method for determining a threshold value for generating an electronic image (50) from an original (10), comprising:
einem ersten Schritt der Erfassung der Bildeigenschaften der Vorlage ( 10 ); a first step of detecting the characteristics of the original image (10);
einem zweiten Schritt der Analyse der räumlichen und/oder örtlichen Verteilung der Bildeigenschaften der Vorlage ( 10 ); a second step of the analysis of the spatial and / or local distribution of the image properties of the template (10); und and
einem dritten Schritt des Ermittelns eines Schwellwertes aus der Verteilungsanalyse der Bildeigenschaften der Vorlage ( 10 ). a third step of determining a threshold value from the distribution analysis of the image properties of the template (10).
2. Verfahren nach Anspruch 1, worin die Verteilungsanalyse der Bildeigenschaften durch eine Ermittlung der räumlichen und/oder örtlichen Variation der Grau- bzw. Farbwerte erfolgt. 2. The method of claim 1, wherein the distribution analysis of the image properties are evaluated by a determination of the spatial and / or local variation of the gray or color values.
3. Verfahren nach Anspruch 2, worin die Verteilungsanalyse der Bildeigenschaften zeilenweise erfolgt. 3. The method of claim 2, wherein the distribution analysis of the image characteristics is performed line by line.
4. Verfahren nach Anspruch 2 oder 3, worin die ermittelte örtliche Variation der Grau- bzw. Farbwerte mit einem vorgegebenen Wert verglichen wird. 4. The method according to claim 2 or 3, wherein the determined local variation of the gray or color values with a predetermined value is compared.
5. Verfahren nach Anspruch 4, worin der vorgegebene Wert so gewählt wird, daß ein Rückschluß auf den wahrscheinlichen Bildinhalt ermöglicht wird, vorzugsweise, ob die Vorlage ( 10 ) voraussichtlich ein Bild und/oder eine Schrift enthält. 5. The method of claim 4, wherein the predetermined value is chosen such that an inference is made possible on the likely image content, preferably, whether the template (10) expected to contain a picture and / or a font.
6. Verfahren nach einem der vorstehenden Ansprüche, worin der erste Schritt der Erfassung der Bildeigenschaften der Vorlage ( 10 ) ein Einlesen der Vorlage ( 10 ) mit einem vorgewählten Schwellwert beinhaltet, und der vorgewählte Schwellwert in dem dritten Schritt angepaßt wird. 6. The method according to any one of the preceding claims, wherein the first step of detecting the picture characteristics of the template (10) includes a reading of the original (10) with a preselected threshold value, and the preselected threshold value is adjusted in the third step.
7. Verfahren nach Anspruch 6, worin der vorgewählte Schwellwert so verändert wird, daß, wenn aufgrund der Verteilungsanalyse der Bildeigenschaften in der Vorlage ( 10 ) relevante Informationen vermutet werden, durch die Schwellwertfilterung weniger Informationen verloren gehen, oder wenn in der Vorlage ( 10 ) keine relevante Informationen vermutet werden, durch die Schwellwertfilterung mehr Informationen verloren gehen. 7. The method of claim 6, wherein the preselected threshold is changed so that if due to the distribution analysis of image properties in the template (10) relevant information is believed to be lost by the thresholding less information, or if in the template (10) no relevant information is believed to be lost by the thresholding more information.
8. Verfahren nach Anspruch 7, worin eine relevante Informationen dann vermutet wird, wenn eine Verteilungsdichte von zu betrachtenden Bildpunkten einen vorgegebenen Grenzwert der Verteilungsdichte überschreiten. 8. The method of claim 7, wherein a relevant information is then presumed when a distribution density of pixels to be considered exceeding a predetermined limit value of the distribution density.
9. Verfahren entsprechend einem der vorstehenden Ansprüche, worin die Ermittlung des Schwellwertes entweder selektiv für einzelne Bereiche der Vorlage ( 10 ) oder integral für die gesamte Vorlage ( 10 ) durchgeführt wird. 9. The method according to any of the preceding claims, wherein the determination of the threshold value is carried out either selectively to individual areas of the original (10) or integral to the entire document (10).
10. Verfahren entsprechend einem der vorstehenden Ansprüche, worin die Verteilungsanalyse der Bildeigenschaften für lokale Bereiche innerhalb der Vorlage durchgeführt wird. 10. The method according to any of the preceding claims, wherein the distribution analysis of the image characteristics for local areas is performed within the template.
11. Verfahren nach Anspruch 10, mit einem Schritt der Anpassung der lokalen Bereiche an systembedingte Bildeigenschaften. 11. The method of claim 10, comprising a step of adjusting the local regions of system-related image properties.
12. Verfahren nach Anspruch 11, worin die lokalen Bereiche entsprechend der Einleseweise der Vorlage ( 10 ) und/oder einer bestimmten Auftretensform der Informationen in der Vorlage ( 10 ) angepaßt werden. 12. The method of claim 11, wherein the local areas corresponding to the Einleseweise the template (10) and / or occurrence of a specific form of the information in the template (10) to be adjusted.
13. Verwendung des Verfahrens entsprechend einem der vorstehenden Ansprüche für eine Vorverarbeitung der Vorlage ( 10 ) vor einer nachfolgenden Bildverarbeitung. 13. The use of the method according to any preceding claim for pre-processing of the template (10) before a subsequent image processing.
14. Verwendung des Verfahrens entsprechend einem der vorstehenden Ansprüche für eine Bilderkennung und/oder für eine Archivierung von Dokumenten. 14. Use of the method according to one of the preceding claims for an image recognition and / or for archiving documents.
15. Verwendung des Verfahrens entsprechend einem der vorstehenden Ansprüche in einem Programm für eine elektronische Datenverarbeitung. 15. The use of the method according to any preceding claim in an application for an electronic data processing.
16. Verwendung des Verfahrens entsprechend einem der vorstehenden Ansprüche für eine Erkennung von Bereichen, die eine Schrift und/oder ein Bild und/oder einen regelmäßigen Hintergrund aufweisen. 16. The use of the method according to any preceding claim for recognition of areas that have a signature and / or image and / or a regular background.
17. Vorrichtung zur Ermittlung eines Schwellwertes für die Erzeugung eines elektronischen Bildes ( 50 ) von einer Vorlage ( 10 ), mit: 17. An apparatus for determining a threshold value for generating an electronic image (50) from an original (10), comprising:
einem Mittel zur Erfassung der Bildeigenschaften der Vorlage ( 10 ); a means for detecting the characteristics of the original image (10);
einem Mittel zur Analyse der räumlichen und/oder örtlichen Verteilung der Bildeigenschaften der Vorlage ( 10 ); a means for analyzing the spatial and / or local distribution of the image properties of the template (10); und and
einem Mittel zur Ermittlung des Schwellwertes aus der Verteilungsanalyse der Bildeigenschaften der Vorlage ( 10 ), wobei das Mittel zur Ermittlung des Schwellwertes ein Mittel zur Auswertung und Bewertung der Analyse der räumlichen Verteilung der Bildeigenschaften aufweist. a means for determining the threshold from the distribution analysis of the image properties of the template (10), wherein the means for determining the threshold value comprises means for evaluation and evaluation of the analysis of the spatial distribution of the image properties.
Description  Langue du texte original : Allemand
Gebiet der Erfindung Field of the Invention

Die Erfindung betrifft die Ermittlung von Schwellwerten bei der Digitalisierung von Bildern. The invention relates to the determination of thresholds in the digitization of images.

Stand der Technik State of the art

Um eine Bild- oder Zeichenerkennung (Optical Character Recognition) in einem elektronisch abgetasteten und digitalisierten Dokument durchführen zu können, müssen häufig in einem ersten Vorverarbeitungsschritt (image preprocessing), die Informationen des Vordergrundes von den Informationen des Hintergrundes getrennt werden. To an image or character recognition (Optical Character Recognition) to perform in an electronically scanned and digitized document must frequently in a first preprocessing (image preprocessing), the information of the foreground are separated from the information of the background. Dabei stellen die Informationen des Vordergrundes oftmals die eigentlichen, für die Zeichenerkennung zu betrachtenden (wichtigen) Bilddaten dar, während die Informationen des Hintergrundes vielfach störend wirken und zu Fehlinterpretationen der Vordergrundinformationen führen können. The information of the foreground often represent the actual, for character recognition to be considered (important) image data, whereas the information of the background often distracting and can lead to misinterpretation of the foreground information. Auch tragen die Daten des Hintergrund des Bildes häufig zu einer Herabsetzung der Erkennungsleistung der Vordergrundinformation bei einer durchzuführenden Zeichenerkennung bei. The data of the background of the image often contribute to a reduction in the recognition performance of the foreground information to be carried out at a character recognition. Die Informationen des Hintergrundes sollten daher möglichst vor der Bild- oder Zeichenerkennung entfernt werden. The information of the background should be removed if possible before the image or character recognition.

Die Hintergrunddaten in einem Bild setzen sich zumeist aus Störungen bei der Digitalisierung (wie Rauschen) und optisch nicht herausfilterbare Bestandteile des digitalisierten Dokumentes (z. B. Verschmutzungen, Schriftteile, Stempel, usw.) zusammen. The background data in an image set is mostly composed of disturbances in the digitization (such as noise) and optically herausfilterbare components of the digitized document (z. B. dirt, writing parts, stamp, etc.). Um eine optimale Erkennungsrate in einer anschließenden Bildverarbeitung erreichbar zu machen, sollten die Bilddaten nach einer Bildaufbereitung idealerweise nur noch die Daten enthalten, die später durch die Zeichenerkennung verarbeitet werden sollen. In order to make an optimal recognition rate in a subsequent image processing reachable, the image data for an image processing should ideally contain only the data that is to be processed later by the character recognition. Je besser die Bildaufbereitung vor der Erkennung ist, desto günstiger sind auch die Erkennungsergebnisse zu erwarten. And the recognition results are the better the image processing before recognition, the cheaper expected.

Viele Bildverarbeitungseinheiten erwarten als Eingangsinformation ein in den Graustufen reduziertes Bild, z. B. ein binarisiertes Schwarz/Weiß Bild. Many image processing units expected as input information in a reduced grayscale image, eg. As a binarized black / white image. Zur Erzeugung eines elektronisch abgetasteten Bildes von einer Vorlage werden vielfach Lesegeräte (Scanner) herangezogen, die mit einer vorgegebenen Abtastfrequenz (z. B. 200 bis 300 Bildpunkte pro Quadratzoll) Bilder mit einer Vielzahl von Graustufen (z. B. 16 oder 256 Graustufen) liefern. To produce an electronically scanned image of a document reading devices (scanners) are widely used, with a predetermined sampling frequency (eg. As 200 to 300 pixels per square inch) photos with a wide range of gray levels (z. B. 16 or 256 gray levels) . provide

Bedingt durch eine Reihe von Fehlermöglichkeiten beim elektronischen Einlesen einer Vorlage, wie beispielsweise Scannertoleranzen oder einen mangelhaften Abgleich einzelner Lese-Elemente eines Scanners, können bereits hier eine Reihe von Einflußgrößen auftreten, die eine Bilderkennung nachteilig beeinträchtigen können. Due to a number of possible errors in the electronic reading a document, such as scanners tolerances or a lack of balance single read-elements of a scanner, a number of influencing variables can occur already here that can affect image recognition disadvantageous. Bei dem Vorgang der elektronischen Umsetzung der Vorlage in ein elektronisches Bild werden Bildstörungen insbesondere durch unzureichende Justierungen der Einlesevorrichtung hervorgerufenen. In the electronic implementation of the template into an electronic image process image disturbances are caused in particular by inadequate adjustment of the reading device. Wird beispielsweise eine Vorlage in horizontaler Richtung eingelesenen, so kann das elektronische Grauwert-Bild der Vorlage horizontale Streifen aufweisen, wenn die Lesezellen der Einlesevorrichtung in vertikaler Richtung angeordnet sind und diese unterschiedlich justiert wurden. For example, if a document scanned in the horizontal direction, the electronic gray-scale image of the original horizontal stripes may have when reading the reading-cells are arranged in a vertical direction and these were adjusted independently. Die horizontalen Streifen werden durch die unterschiedlichen Empfindlichkeiten bzw. Justagen der einzelnen Lesezellen bedingt. The horizontal stripes are due to the different sensitivities or adjustments of the individual reader cells.

Auch Art und Qualität der Vorlage selbst können die Bilderkennung entscheidend prägen. The type and quality of the template itself can shape the image recognition decisive. So gehen bei einer Wandlung eines Farbbildes in ein Graubild eventuell vorhandene Farbkontraste verloren. So go for a conversion of a color image into a gray image any existing color contrasts lost. Bei handschriftlichen, aber auch bei maschinellen Eintragungen auf einer Vorlage hängt die Les- und Erkennbarkeit auch insbesondere von deren Kontrastierung, bedingt beispielsweise durch mehr oder minder starkes Andrücken beim Schreiben, ab. In handwritten, but also for machine entries on a template, the readability and visibility also depends in particular on their contrast, caused for example by a more or less strong pressing the letter from.

Für eine Reihe von Anwendungen besteht die Anforderung, zusätzlich zu der Erzeugung eines Bildes für eine Zeichenerkennung - das sogenannte Netto-Bild - ein Bild für eine Archivierung - das sogenannte Brutto-Bild - zu erzeugen. For a number of applications require, in addition to the formation of an image for a character recognition - the so-called net-image - an image for archiving - the so-called gross-image - to produce. Es müssen also zwei elektronische Bilder erzeugt werden, was aus Zeitgründen nach Möglichkeit ohne Durchsatzverlust durchgeführt werden sollte. So there must be two electronic images are generated, which should be carried out for reasons of time if possible without loss of throughput. Von den momentan verfügbaren Anwendungen werden hierfür Schwarz/Weiß Bilder, sowohl für die Erkennungseinheit als auch für Archivierungszwecke, verwendet, da Graustufenbilder rechenintensiv komprimiert und dekomprimiert werden müssen und dennoch einen höheren Speicherbedarf als Schwarz/Weiß Bilder haben. Of the applications currently available for this black / white images, both for the recognition unit and for archival purposes, used as grayscale images must be compressed and decompressed computationally intensive and yet a higher memory requirements as black / white images have.

Durch eine elektronische Abtastung einer Vorlage erhält man ein elektronisches Bild der Vorlage, worin jedem Bildpunkt (Pixel) ein Bildwert, beispielsweise ein Grauwert, ein Schwarz- oder Weißwert oder ein Farbwert, zugeordnet ist. An electronic scanning of a document obtained an electronic image of the original, in which each picture element (pixel) image value, for example, a gray value, a black or white value or a color value is assigned. Durch die Verwendung von Filtern lassen sich diese Zuordnungen beeinflussen. By using filters, these mappings can be influenced. Bei Anwendung eines Schwellwert-Filters lassen sich beispielsweise die Bildwerte ober- bzw. unterhalb eines vorgegebenen Schwellwertes aus dem elektronischen Bild herausfiltern. When using a threshold filter can be, for example, the image values above or below a predetermined threshold to filter out from the electronic image. So lassen sich z. B. die für eine Bildverarbeitung nicht gewünschten Hintergrundinformationen oder Störeffekte eliminieren. Thus, for. Example, can eliminate the undesired for image processing background information or interference effects.

Die herausgefilterten Bildwerte stehen jedoch danach weder für ein Archivbild noch für eine Bilderkennung zur Verfügung. The filtered image values are, however, then neither picture nor an archive for image recognition. Eventuell unbeabsichtigt ausgefilterte Vordergrundinformationen können so das Ergebnis einer anschließenden Bilderkennung verfälschen. May inadvertently filtered foreground information can so distort the result of a subsequent image recognition. Je nach Wert des Schwellwertes gehen mehr oder minder viele Informationen verloren. Depending on the value of the threshold go more or less a lot of information is lost. Der Wahl des Schwellwertes kommt so eine eminente Bedeutung für die Qualität der Bilderkennung zu. The choice of the threshold value thus comes to an eminent importance for the quality of image recognition.

Zur Erzeugung von Binärbildern aus Graustufenbildern werden vielfach statische oder dynamische Konvertierungsalgorithmen verwendet. For the generation of binary images from gray-scale images, static or dynamic conversion algorithms are often used. Aus dem Buch von Peter Haberäcker, "Digitale Bildverarbeitung", Carl Hanser Verlag München Wien, ISBN 3-446- 14442-0, 1985, sind eine Reihe von Verfahren zur Bildverarbeitung bekannt, die auch für eine Bildvorverarbeitung angewandt werden können. From the book by Peter Haber fields, "Digital Image Processing", Carl Hanser Verlag, Munich, Vienna, ISBN 3-446- 14442-0, 1985, a number of methods for image processing are known which can also be used for image pre-processing. Es werden dort insbesondere als Operationen im Ortsbereich (Kap. 8) Verfahren zur Glättung der Grauwerte (Kap. 8.1) und die Anwendung von Differenzenoperatoren (Kap. 8.2), sowie Verfahren zur dynamischen Schwellwertbestimmung (Kap. 12.3) vorgestellt. It method for smoothing of the gray values (chap. 8.1) and the use of difference operators (Chap. 8.2), as well as methods for dynamic thresholding (chap. 12.3) are there particular as operations in the local area (8 ch.) Presented.

Eine Übersicht über die bekanntesten Verfahren zur Ermittlung eines Schwellwertes ist in PKSahoo, S.Soltani and AKCWong "A Survey of Thresholding Techniques", Computer Vision, Graphics and Image Processing 41, 233-260, 1988 zu finden. An overview of the most well-known method for determining a threshold can be found in PKSahoo, S.Soltani and AKCWong "A Survey of Thresholding Techniques", Computer Vision, Graphics and Image Processing 41, 233-260, 1988. Es wird dort zwischen Histogramm-Transformations-Methoden, die zur Ermittlung des Schwellwertes die Form eines Histogramms einer Grauwertverteilung verändern und Algorithmen zur Schwellwertberechnung unterschieden. There will distinguish between histogram transform methods that change the threshold for determining the form of a histogram of the gray value distribution and algorithms for threshold calculation.

Aus US-A-4,590,606 und US-A-5,038,381 sind weitere Verfahren zur Bildverarbeitung, wie z. B. Vordergrundfilter durch Laufzeitverhalten, bekannt. US-A-4,590,606 and US-A-5,038,381 are other methods for image processing, such. As foreground filter through run-time behavior is known.

EP-A-0.505.729 beschreibt ein System zur Binarisierung von Bildern, das ein Lesen von Dokumenten mit einer normalen Printqualität ermöglicht. EP-A-0505729 describes a system for the binarization of images, which allows for reading documents with a normal print quality.

Allen Verfahren mit einer Ausfilterung von Informationen aus einer elektronischen Vorlage ist jedoch gemein, daß durch das Filtern auch eventuell solche Informationen, die für eine Bilderkennung notwendig sind, verlorengehen können. Any proceedings with a filtering information from an electronic document, however, is common that may also may disclose such information, which are necessary for image recognition are lost through the filters.

Zusammenfassung der Erfindung Summary of the Invention

Es ist Aufgabe der Erfindung, den Prozeß der Vorbereitung von Bildern für eine Bilderkennung zu verbessern, um so eine erhöhte Erkennbarkeit der gewonnenen Bilder zu gewährleisten. It is an object of the invention to improve the process of preparing images for image recognition, so as to ensure an increased visibility of the images obtained. Die Aufgabe wird durch die unabhängigen Ansprüche gelöst. The object is solved by the independent claims.

Erfindungsgemäß erfolgt eine Ermittlung eines Schwellwertes für die Erzeugung eines elektronischen Bildes aus einer Vorlage unter Berücksichtigung der jeweiligen Bildeigenschaften der Vorlage. According to the invention, a determination of a threshold value for generating an electronic image from an original image, taking into account the respective characteristics of the template. Die Bildeigenschaften werden dabei insbesondere durch den Bildinhalt, also die eigentlichen Bilddaten, und Bildstörungen, also ungewollte Veränderungen des Bildinhaltes, geprägt. The image properties are in particular, influenced by the image content, so the actual image data and image distortions, so unwanted changes in the image. Bei den Bildstörungen ist zu unterscheiden zwischen solchen, die durch den Vorgang der elektronischen Umsetzung der Vorlage in ein elektronisches Bild hervorgerufen werden und solchen, die bereits in der Vorlage vorhanden sind. In the picture noise is to distinguish between those that are caused by the operation of the electronic implementation of the template into an electronic image and those that already exist in the template.

In einem ersten Schritt erfolgt eine erste Erfassung der Bildeigenschaften der Vorlage, z. B. durch ein Einscannen der Vorlage mit einem vorgewählten Schwellwert oder durch eine beliebige andere Erfassungsweise. In a first step, a first acquisition of the image properties of the template, for. Example, by a document is loaded with a preset threshold or by any other way acquisition takes place. Vorzugsweise wird für die Erfassung bereits mindestens ein Schwellwert z. B. aufgrund von Erfahrungen oder als Mittelwert vorgewählt. Preferably, at least one threshold z. B. is selected based on experience or as a mean for the collection already. Insbesondere eignet sich auch die Erzeugung eines Schwarz-/Weißbildes oder eines Grauwertbildes aus der Vorlage zur Erfassung der Bildeigenschaften. In particular, the generation of a black / white image or a gray value image from the template to capture the image properties is suitable.

In einem zweiten Schritt erfolgt eine Analyse der Bildeigenschaften der Vorlage. In a second step, an analysis of the properties of the template image. Zu diesen vorlagenbedingten Bildeigenschaften gehören beispielsweise die eigentlichen Bilddaten, der Bildinhalt aber auch Bildstörungen. These template-related image properties include, for example, the actual image data, the image content as well as image noise. Die Analyse der Bildeigenschaften der Vorlage kann entweder selektiv für einzelne Bereiche der Vorlage oder integral für die gesamte Vorlage durchgeführt werden. The analysis of the image characteristics of the template can be carried out either selectively for individual areas of the template or integral to the entire document.

In einem dritten Schritt wird dann mindestens ein Schwellwert aus dem Ergebnis bzw. den Ergebnissen der Analyse der vorlagenbedingten Bildeigenschaften ermittelt. In a third step, at least a threshold value is then determined from the results or the results of the analysis of the original image-related properties. Entsprechend der durchgeführten Analyse der Bildeigenschaften der Vorlage kann entweder jeweils mindestens ein Schwellwert selektiv für die einzelnen Bereiche der Vorlage oder ein Schwellwert integral für die gesamte Vorlage ermittelt werden. According to the analysis carried out in the image properties of the template either at least a threshold can be determined selectively for each area of the template or a threshold value integral to the entire document.

Wurde in dem ersten Schritt bereits ein Schwellwert vorgegeben, so kann dieser vorgegebene Schwellwert aufgrund der Analyse der Bildeigenschaften der Vorlage an die ermittelten Bildeigenschaften angepaßt werden. Was in the first step already set a threshold, it can be adapted to the predetermined threshold value determined image characteristics based on the analysis of the properties of the template image. Der vorgegebene Schwellwert wird dann entsprechend der Ergebnisse der Analyse der Bildeigenschaften der Vorlage verändert, bzw. auch gleich gelassen falls eine Änderung nicht notwendig ist. The default threshold is then changed according to the results of the analysis of the properties of the original image, and also left the same if a change is necessary.

Die Ermittlung des Schwellwertes aus den vorlagenbedingten Bildeigenschaften erfolgt durch eine Analyse der räumlichen bzw. The determination of the threshold from the original image related properties are evaluated by an analysis of spatial and

örtlichen Verteilung der Bildeigenschaften, die auch als lokale Bildfrequenzen bezeichnet werden. spatial distribution of the image properties, which are also referred to as local image frequencies. Aus der Verteilungsanalyse läßt sich wiederum auf einen möglichen, zu erwartenden Bildinhalt zurückschließen. From the distribution analysis can be attributed to a possible close again, the expected image content. Wird beispielsweise bei einem Schwarz-/Weißbild eine Verteilungsdichte der schwarzen Bildpunkte in einem Bereich oberhalb eines vorgebbaren Grenzwertes der Verteilungsdichte ermittelt, so liegt voraussichtlich in diesem Bereich eine wesentliche Bildinformation, wie z. B. eine Schrift, ein Bild oder jeweils Teile davon, vor. For example, in a black / white image of a distribution density of the black pixels detected in a region above a predetermined limit, the distribution density, as is expected in this area an important image information, such. As a font, image, or each part thereof, before , Der Schwellwert kann für diesen Bereich nun so verändert werden, daß durch die Schwellwertfilterung weniger Informationen verloren gehen. The threshold value can now be changed in this area that will be lost by the thresholding less information. Wird in einem anderem Bereich in diesem Schwarz-/Weißbild eine Verteilungsdichte der schwarzen Bildpunkte unterhalb des vorgegebenen Grenzwertes ermittelt, so liegt in diesem Bereich voraussichtlich keine wesentliche Bildinformation oder nur eine Bildstörung vor. Is in a different area in this black / white image of a distribution density of the black pixels detected below the specified limit, so in this area is expected to have no significant image information or image distortion. Der Schwellwert kann für diesen Bereich nun so verändert werden, daß durch die Schwellwertfilterung mehr Informationen eliminiert werden. The threshold value can now be changed in this area that more information be eliminated by thresholding.

Die Verteilungsanalyse erfolgt vorzugsweise durch eine Ermittlung der örtlichen Variation der Grau- bzw. Farbwerte, z. B. entlang einer Zeile. The distribution analysis is preferably done by a determination of the local variation of the gray or color values, z. B. along a row. Bei einem erzeugten Schwarz-/Weißbild der Vorlage lassen sich so beispielsweise die Anzahl der Schwarzwerte entlang einer Zeile - oder eines Zeilenausschnittes - ermitteln. In a generated black / white image of the original can be so, for example, the number of black levels along a line - a line or cutout - Calculate. Bei einem erzeugten Grauwertbild der Vorlage kann beispielsweise die Anzahl der Änderungen der Grauwerte entlang einer Zeile oder eines Zeilenausschnittes ermittelt werden. In a generated gray scale image of the template can be determined for example the number of changes of the gray values along a line or a line cutout.

Die örtliche Variation der Grau- bzw. Farbwerte, also beispielsweise die ermittelte Anzahl oder Dichte der Schwarzwerte oder der Anzahl der Änderungen der Grauwerte, ist vielfach ein Maß für den Informationsgehalt des betrachteten Bereiches in der Vorlage. The local variation of the gray or color values, so for example the determined number or density of the black levels or the number of changes of the gray values is often a measure of the information content of the subject region in the template. Die ermittelte örtliche Variation der Grau- bzw. Farbwerte kann nun mit vorgebbaren Werten verglichen werden, die so einen Rückschluß auf den wahrscheinlichen Inhalt des Bereiches zulassen, also beispielsweise, ob der Bereich voraussichtlich ein Bild oder eine Schrift enthält. The calculated spatial variation of gray or color values can now be compared with predetermined values that allow such a conclusion on the likely contents of the area, so for example, if the range expected contains a picture or a font. Wird so ein Bereich der voraussichtlich ein Bild oder eine Schrift beinhaltet erkannt, kann der Schwellwert für diesen Bereich so angepaßt werden, daß die Gefahr eines Informationsverlusts durch die Schwellwertfilterung reduziert wird. Then a range of likely an image or font contains recognized, the threshold value for this field can be adjusted so that the risk of information loss is reduced by the thresholding. Analog dazu kann der Schwellwert in Bereichen, in denen keine wesentliche Bildinformation oder nur eine Bildstörung vermutet wird, so angepaßt werden, daß durch die Schwellwertfilterung mehr Informationen herausgefiltert werden. Similarly, the threshold value in areas where no significant image information or image disturbance is assumed to be adjusted so that more information is filtered out by the thresholding.

Ist beispielsweise in einem Schwarz-/Weißbild eine ermittelte Anzahl der Schwarzwerte pro Längen- oder Flächeneinheit, bzw. in einem Graubild die Anzahl der Änderungen der Grauwerte pro Längen- oder Flächeneinheit größer als ein vorgegebener Wert, deutet dies auf eine Schrift oder ein Bild in diesem Bereich hin. For example, in a black / white image of a determined number of black levels per length or unit area, or in a gray image, the number of changes of the gray levels per length or unit area greater than a predetermined value, this indicates a font or a picture in this portion. Entsprechend deutet eine ermittelte Anzahl der Schwarzwerte bzw. die Anzahl der Änderungen der Grauwerte pro Längen- oder Flächeneinheit kleiner als ein vorgegebener Wert auf eine Bildstörung oder zumindest auf eine unwesentliche Bildinformation in diesem Bereich hin. According indicated a determined number of black levels and the number of changes of the gray levels per unit area or length less than a predetermined value indicates an image disorder or at least one immaterial image information in this area.

Aus der Verteilungsanalyse lassen sich also insbesondere die für eine Bilderkennung interessante Bereiche, wie eine Schrift oder ein Bild, erkennen. From the distribution analysis thus can be especially interesting for image recognition areas, recognize as a font or an image. Weiterhin ermöglicht die Verteilungsanalyse eine Hintergrunderkennung bei einem regelmäßigen Hintergrund. Furthermore, the distribution analysis allows for background detection in a regular background. Besteht die Vorlage nun aus Bildteilen mit ausschließlicher Vorder- und/oder Hintergrundinformation, lassen sich die einzelnen Bereiche mit unterschiedlichen Schwellwerten bearbeiten. The template is now composed of image parts with exclusive front and / or background information, the different areas with different threshold values can be edited. Hintergrundbereiche können so bereinigt werden, während die für die Bilderkennung interessanten Bereiche sicherer, im Sinne der Gefahr von Informationsverlusten, verarbeitet werden. Background regions can thus be adjusted while the interest for image recognition areas are safer in terms of the risk of loss of information processed.

Der oder die Schwellwerte können weiterhin an die systembedingten Bildeigenschaften durch eine geeignete Wahl der Bereiche für eine Untersuchung lokaler Bildeigenschaften angepaßt werden. The one or more threshold values may further be adapted to the system-related image properties by an appropriate choice of the areas for the investigation of local image characteristics. Zu den systembedingten Bildeigenschaften gehören ua die durch den Einlesevorgang hervorgerufenen Bildstörungen oder die Vorlagentyp-spezifischen Bildeigenschaften, die von Vorlage zu Vorlage eines Vorlagentyps gleich bleiben. The system-related image properties among others are provoked by the read-image disturbances or the original type-specific image properties, which remain the same from template to template the document type. Die vorlagentyp-spezifischen Bildeigenschaften werden insbesondere durch den Bildaufbau und die Bildeinteilung des jeweiligen Vorlagentyps geprägt. The original type-specific image features are particularly influenced by the image composition and image classification of each document type. Bei einer Vorlage, die in horizontaler Richtung eingelesen wird, werden die Untersuchungsbereiche vorzugsweise horizontal länglich (z. B. zeilenweise) - entsprechend der horizontalen Einleseweise - angenommen. In a template that is read in the horizontal direction, the study areas preferably horizontally oblong be (. For example, line by line) - accepted - corresponding to the horizontal Einleseweise. Entsprechend werden bei Vorlagen, bei denen die Informationen überwiegend zeilenweise (oder vertikal) auftreten, die Bereiche ebenfalls zeilenhaft (oder vertikal) ausgeprägt. Accordingly, in templates where the information mainly line by line (or vertical) occur, the areas also row-way (or vertical) pronounced.

Die Erfindung findet Anwendung bei der (Vor-)verarbeitung von Dokumenten für eine Bilderkennung und/oder für eine Archivierung der Dokumente. The invention finds application in the (pre-) processing of documents for image recognition and / or archiving of documents.

Weitere, vorteilhafte Ausführungen der Erfindung finden sich in den Unteransprüchen. Further advantageous embodiments of the invention are found in the dependent claims.

Beschreibung der Zeichnungen Description of the Drawings

Zur näheren Erläuterung der Erfindung sind im folgenden Ausführungsbeispiele mit Bezugnahme auf die Zeichnungen beschrieben. For a more detailed explanation of the invention embodiments are described with reference to the drawings in the following. Funktionsgleiche Elemente sollen gleiche Bezugszeichen tragen. Functionally identical elements are to bear the same reference numerals.

Fig. 1 zeigt eine Vorlage mit einer Schrift und einer zufälligen Bildstörung, Fig. 1 shows a template with a font and a random image disturbance,

Fig. 2 zeigt ein elektronisches Grauwertbild der Vorlage, aus Fig. 1, das mit einem einheitlichen, mittleren Schwellwert aus der Vorlage gewonnen wurde, Fig. 2 shows an electronic gray-scale image of the template of Fig. 1, which was obtained with a single, middle threshold from the template,

Fig. 3 zeigt die Grauwertverteilung in horizontaler Richtung für 3 exemplarisch ausgewählte Zeilenbereiche A, B und C mit einer Länge L in dem Grauwertbild aus Fig. 2, Fig. 3 shows the gray value distribution in the horizontal direction for 3 exemplarily selected row areas A, B and C of length L in the gray-scale image of Fig. 2,

Fig. 4 zeigt ein gemäß der Erfindung aus der Vorlage in Fig. 1 gewonnenes Bild, Fig. 4 shows a according to the invention from the template in Fig. 1 image obtained,

Fig. 5 erläutern die Erfindung an einem Beispiel eines Scanners, der eine 4-Bit-Wandlung durchführt. FIG. 5 illustrate the invention using an example of a scanner that performs 4-bit conversion.

Detaillierte Beschreibung der Erfindung Detailed Description of the Invention

Fig. 1 zeigt eine Vorlage 10 mit einer Schrift 20 und einer zufälligen Bildstörung 30 . Fig. 2 zeigt ein elektronisches Grauwertbild 40 der Vorlage 10 , das mit einem einheitlichen, mittleren Schwellwert SW mittel aus der Vorlage 10 gewonnen wurde. Fig. 1 shows a model 10 with a type 20 and a random image disturbance 30th FIG. 2 shows an electronic gray scale image 40 of the original 10, which was obtained with a single, middle threshold SW medium from the template 10. Der mittlere Schwellwert SW mittel kann beispielsweise aus einer Mittelung der Grauwertverteilung der Vorlage oder eines Bereiches davon stammen oder als Erfahrungswert einfach vorgegeben werden. The mean threshold SW medium, for example, come from averaging the gray value distribution of the original or a portion thereof, or be simply defined as an experience value. Das Grauwertbild 40 weist ein Bild 20 ′ der Schrift 20 und ein Bild 30 ′ der zufälligen Bildstörung 30 auf. The gray-scale image 40 has an image 20 'of Scripture 20 and an image 30' of the random image disturbance 30. Wie aus Fig. 2 zu entnehmen ist, sind durch die Schwellwertfilterung Informationen verloren gegangen, die im ungünstigsten Fall eine Erkennbarkeit der Schrift 20 erschweren können. As can be seen from Fig. 2, by thresholding the information is lost, which can complicate the visibility of the font 20 in the worst case.

Fig. 3 zeigt die Grauwertverteilung in horizontaler Richtung für 3 exemplarisch ausgewählte Zeilenbereiche A, B und C mit einer Länge L in dem Grauwertbild 40 . Fig. 3 shows the gray value distribution in the horizontal direction for 3 exemplarily selected row areas A, B and C of length L in the gray-scale image 40th Innerhalb des Zeilenbereiches A werden 8 Peaks oberhalb und 1 Peak unterhalb eines vorgegebenen Grauwertes G ermittelt. Within the line range A are above 8 peaks 1 and peak detected below a predetermined gray value G. Innerhalb des Zeilenbereiches B wird kein Peak oberhalb und es werden 2 Peaks unterhalb des Grauwertes G gefunden. Within the line range B, no peak is above, and 2 peaks below the gray value G found. Innerhalb des Zeilenbereiches C werden 2 Peaks oberhalb und 1 Peak unterhalb des Grauwertes G ermittelt. Within the line range C above 2 peak and peak 1 detected below the gray value G.

Als Grenzwert für die Erkennung bild-relevanter Bereiche innerhalb der Vorlage 10 sei eine Anzahl von 4 Peaks oberhalb des vorgegebenen Grauwertes G für einen Zeilenbereich der Länge L gegeben. The limit of detection of image-relevant areas within the template 10 has a number of 4 peaks above the predetermined gray value G is given for a range of lines of length L. Dementsprechend wird nur der Zeilenbereich A als ein Bild-relevanter Bereich erkannt. Accordingly, only the row area A is recognized as an image-relevant area. Für diesen Zeilenbereich A wird für einen zweiten Einlesevorgang ein Schwellwert SW information , der gegenüber dem mittleren Schwellwert SW mittel weiter in Richtung "weiß" verschoben ist, also weniger Informationen herausfiltern wird, eingestellt. For these lines, the region A is a read-in process for a second threshold value SW information, relative to the central threshold value SW medium in the direction of "white" is shifted, that is, less information is filtered out, adjusted. Die Zeilenbereiche B und C hingegen werden als nicht-bild-relevante Bereiche eingestuft und es wird für einen zweiten Einlesevorgang ein Schwellwert SW hinergrund , der gegenüber dem mittleren Schwellwert SW mittel weiter in Richtung "schwarz" verschoben ist, also mehr Informationen herausfiltern wird, eingestellt. The line areas B and C, however, are classified as non-image-related areas and it is for a second read-a threshold SW Hinergrund that is more "black" shifted from the middle threshold SW medium in the direction, so more information will filter set ,

Der oben dargestellte Vorgang zur Erkennung bild-relevanter Bereiche wird entsprechend zeilenweise für das gesamte Bild 40 durchgeführt, die Schwellwerte der einzelnen Bereiche werden an die erkannten Bereiche angepaßt und ein neues Bild 50 mit Hilfe der neu angepaßten Schwellwerte erzeugt. Fig. 4 zeigt das neue Bild 50 . The presented above procedure for detecting image-relevant areas line by line performed according to the entire image 40, the threshold values of the different areas to be adapted to the identified areas and a new image 50 generated using the newly adapted thresholds. Fig. 4 shows the new Image 50th Die Schrift 20 der Vorlage 10 wurde als bild-relevanter Bereich erkannt und in dem Bild 50 als Schrift 20 ′′ abgebildet. The writing 20 of the original 10 was identified as image-related topic and displayed in the image 50 as font 20 ''. Die zufällige Bildstörung 30 aus der Vorlage 10 konnte durch diesen Prozeß vollständig eliminiert werden. The random image disturbance 30 from the template 10 could be completely eliminated by this process.

Die Erfindung soll an einem weiteren Beispiel eines Scanners, der eine 4-Bit-Wandlung durchführt, erläutert. The invention is to a further example of a scanner that performs 4-bit conversion will be explained. Eine 4-Bit- Wandlung bedeutet, daß als Vorlage ein Graubild mit 16 Graustufen vorliegt, das in ein Schwarz-Weiß-Bild gewandelt werden soll. A 4-bit conversion means that as a template a gray image with 16 gray levels present to be converted into a black and white image. Der Grauwert 15 soll in diesem Beispiel der Graustufe "weiß" entsprechen und der Grauwert 0 der Graustufe "schwarz". The gray value is 15 in this example, the gray level of "white" and correspond to the gray value 0 to the gray level "black".

Fig. 5a zeigt einen Bildausschnitt eines ersten eingescannten Testbildes einer (hier nicht gezeigten) Vorlage. Fig. 5b stellt die Verteilung der Bilddaten (Grauwert-Histogramm) für einen Bereich des Testbildes dar. Aus diesem Histogramm ergibt sich ein mittlerer Grauwert von 11,23. Fig. 5a shows an image area of a first scanned test image (not shown here) template. Fig. 5b shows the distribution of the image data (gray value histogram) for a range of test image. From this histogram, a mean gray value of 11.23 results , Wird als Schwellwert für die Wandlung der Vorlage in ein Schwarz-Weiß-Bild dieser mittlere Grauwert, oder durch die Abrundung auf gerade Werte (Integer) ein entsprechender Schwellwert von 11, verwendet, werden nicht ausreichend Bildinformationen der Vorlage in dem gezeigten Bildausschnitt in schwarze Bildpunkte umgewandelt werden. Is a threshold for the conversion of the original in a black and white image of this mean gray value, or by rounding to even values (integer) a corresponding threshold value of 11 is used, will not be sufficient image information of the template in the image shown Neck black pixels be converted. Die Schwellwertfilterung bewirkt, daß Werte, die kleiner als der vorgegebene Schwellwert sind, in signifikante, schwarze Bildpunkte umgewandelt werden. The thresholding causes values that are smaller than the predetermined threshold value, are converted in significant and black pixels. Störinformation (Rauschen, Digitalisierungsfehler), aber auch tatsächliche Bildinformationen mit Grauwerten größer als der Schwellwert werden als weiße Bildpunkte dargestellt. Noise information (noise, digitization errors), but also actual image information with gray values above the threshold are shown as white dots.

Aus dem Histoprogramm in Fig. 5b ist nicht ersichtlich, ob es sich bei den Bildpunkten um verwertbare Informationen oder um Rauschen handelt. From the Histoprogramm in Fig. 5b is not clear whether this is useful information or noise at the image points. Daher ist hier eine Schwarz-Weiß-Wandlung immer mit dem Risiko des Auslöschens von Informationen behaftet. Therefore a black and white conversion is always fraught with the risk of extinction of information.

Erfindungsgemäß wird nun eine Verteilungsanalyse durchgeführt, dh es wird die "Frequenz" der vorliegenden Bilddaten in horizontaler Richtung untersucht. According to the invention, a distribution analysis is now performed, that is, examines the "frequency" of the present image data in the horizontal direction. Die horizontale Bildrichtung bietet sich insbesondere dann an, wenn Schriften in horizontaler Richtung erwartet werden. Fig. 5c zeigt einen Verlauf 100 der Grauwerte für einen Bereich in horizontaler Richtung innerhalb der Schrift "Konto-Nr" in Fig. 5a, wobei diese in der Vorlage rot gedruckt wurde. The horizontal direction is particularly appropriate when writings in the horizontal direction are expected. Fig. 5c shows a plot 100 of the gray values of an area in the horizontal direction within the font "account number" in Fig. 5a, which in the template was printed in red. Der Verlauf 100 der Grauwerte wird mathematisch differenziert und führt zu einem Verlauf 110 der Ableitung. The curve 100 of the gray values is mathematically differentiated, leading to a gradient 110 of the derivative. Durch Aufsummieren der vorkommenden Wendepunkte oder Maxima in der Ableitung 110 , bezogen auf die Längeneinheit, ergibt sich eine "Frequenz" für diesen Bereich. By summing up the occurring turning points or maxima in the derivative of 110, based on the unit length, results in a "frequency" in this area. Die so ermittelte "Frequenz" wird mit einem vorgegebenen Grenzwert verglichen. The determined "frequency" is compared with a predetermined limit value. Dabei wurde der Grenzwert aufgrund vorangegangener Bilduntersuchungen so eingestellt, daß signifikante Textbereiche erkannt werden können. In this case, the limit due to previous investigations image was adjusted so that significant text areas can be recognized.

In dem Beispiel in Fig. 5c liegt die ermittelte "Frequenz" oberhalb des vorgegebenen Grenzwertes, so daß ein signifikanter Textbereich angenommen wird. In the example in FIG. 5c is the resulting "frequency" above the predetermined limit value, so that a significant range of text is assumed. Der Schwellwert für die Schwarz-Weiß-Wandlung wird entsprechend angepaßt und in diesem Beispiel um eine Graustufe (also von 11 auf 12) nach oben festgelegt. Fig. 5d zeigt das Ergebnis der durchgeführten Schwarz-Weiß-Wandlung mit dem angepaßten Schwellwert. The threshold value for the black and white conversion will adjust accordingly, in this example, a gray scale (ie, from 11 to 12) set up. Fig. 5d shows the outcome of the black and white conversion with the adaptive threshold.

Der Einfachheit halber wurde in Fig. 5d die Schwarz-Weiß-Wandlung für den ganzen in Fig. 5a gezeigten Bereich mit dem angepaßten Schwellwert durchgeführt. For simplicity, was carried out in Fig. 5D, the monochrome conversion for all shown in Fig. 5a area with the adjusted threshold value. Entsprechend könnte jedoch auch eine Schwarz-Weiß-Wandlung mit einer Vielzahl von an einzelne Bereiche angepaßten Schwellwerten durchgeführt werden. However, according to a monochrome conversion may also be carried out with a plurality of individual areas adapted to threshold values.

Citations de brevets
Brevet cité Date de dépôt Date de publication Déposant Titre
DE2757456C2 *22 déc. 197714 avr. 1988Recognition Equipment Inc., Dallas, Tex., UsTitre non disponible
DE3433493C2 *12 sept. 198421 juil. 1988Ricoh Co., Ltd., Tokio/Tokyo, JpTitre non disponible
DE4411248C1 *31 mars 199426 oct. 1995Licentia GmbhVerfahren und Vorrichtung zum Binarisieren von Pixel-Daten
DE4445386C1 *20 déc. 19942 mai 1996IbmSeparation of foreground and background information on document
EP0505729A2 *20 févr. 199230 sept. 1992EASTMAN KODAK COMPANY (a New Jersey corporation)Image binarization system
US4590606 *13 déc. 198220 mai 1986International Business Machines CorporationMulti-function image processing system
US4878248 *20 avr. 198831 oct. 1989Industrial Technology Research InstituteMethod and apparatus for automatically recognizing license plate characters
US5038381 *19 mars 19906 août 1991New Dest CorporationImage/text filtering system and method
Citations hors brevets
Référence
1 *OHYA, SHIO, AKAMATSU: "Recognition characters in scane images" IEEE Transactions on pattern analysis and machine intelligence, Vol. PAMI-16, N. 2, 1994, S. 214-220
2 *SAHOO, et al: "A Survey of Thresholding Techni- ques" Computer Vision, Graphics and Image Pro- cessing 41, 1988, S. 233-260
3 *WHITE/ROHRER: "Image Thresholding for Optical Character Recognition and other Application Reguiring Character Image Extraction" IBM J.Res. Develop., Vol. 27, Nr. 4, July 1983, pp. 400-411
Référencé par
Brevet citant Date de dépôt Date de publication Déposant Titre
DE10010621B4 *3 mars 200024 août 2006International Business Machines Corp.Schnelles Lokalisieren von Adressblöcken in Graustufenbildern
DE10054185A1 *2 nov. 200029 mai 2002Infineon Technologies AgVerfahren zur Optimierung eines elektronisch erzeugten Bildes
EP1330111A2 *6 janv. 200323 juil. 2003Eastman Kodak CompanyAutomatic image quality evaluation and correction technique
EP1330111A3 *6 janv. 20038 déc. 2004Eastman Kodak CompanyAutomatic image quality evaluation and correction technique
US697060616 janv. 200229 nov. 2005Eastman Kodak CompanyAutomatic image quality evaluation and correction technique for digitized and thresholded document images
US749956923 févr. 20053 mars 2009Mitsubishi Fuso Truck And Bus CorporationHand pattern switching apparatus
US819494114 janv. 20085 juin 2012Nec CorporationCharacter noise eliminating apparatus, character noise eliminating method, and character noise eliminating program
Classifications
Classification internationaleG06K9/38
Classification coopérativeG06K9/38, G06K2209/01
Classification européenneG06K9/38
Événements juridiques
DateCodeÉvénementDescription
3 avr. 1997OP8Request for examination as to paragraph 44 patent law
7 mai 19978128New person/name/address of the agent
Representative=s name: RACH, W., DR., PAT.-ASS., 70569 STUTTGART
17 déc. 19988131Rejection