CN101443790A

CN101443790A - 数字图像中的非回流内容的有效处理

Info

Publication number: CN101443790A
Application number: CNA2007800173761A
Authority: CN
Inventors: R·L·古德温; T·N·特里; A·B·考斯; F·Z·R·阿卡林; J·沙干
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2006-03-28
Filing date: 2007-03-22
Publication date: 2009-05-27
Anticipated expiration: 2027-03-22
Also published as: EP1999687A2; US7961987B2; WO2007112276A3; US7433548B2; EP1999687A4; EP1999687B1; US20080267535A1; CN101443790B; US20070237428A1; JP2009531790A; WO2007112276A2

Abstract

提供了一种用于有效地将数字图像处理为回流内容的计算机系统和方法。该方法包括在计算机上执行的下列操作中的每一个操作。获取数字图像，以便进行处理。数字图像至少包括适于转换为回流内容的某些内容。数字图像被处理为数字内容文件。数字内容文件包括回流内容和非回流内容块两者。对于数字内容文件中的每一个非回流内容块，执行下面的操作。就是否应该手动评估所述非回流内容块以便进行编辑作出判断。如果判断应该对所述非回流内容块进行关于编辑的手动评估，则自动地触发关于编辑的手动评估。

Description

数字图像中的非回流内容的有效处理

技术领域

本发明涉及处理内容的数字图像，更具体来说，将数字图像处理为包括非回流和回流内容的数字回流内容。

背景技术

随着越来越多的用户求助于诸如因特网之类的计算机网络，具体来说，万维网(下面简称为“Web”)来获取信息，内容提供商越来越多地将传统的内容(例如，印刷材料，如书、杂志、报纸、新闻稿、手册、指南、参考文献、文章、报告、文档等等)转换为电子形式。

对于某些内容提供商，将印刷的内容转换为电子形式以便进行发布的快速而简单的方式是创建印刷的内容的数字图像，即，包含文本表示的数字图像。如本领域技术人员所理解的，这种转换通常是通过使用扫描仪来执行的。然而，尽管简单地生成印刷的内容的数字图像的过程可以快速地完成，所产生的数字图像可能不特别适用于各种情况。例如，对应于将书的页面转换为电子形式的数字图像在某些查看情况下可能不特别适合。当然，数字图像并不总是进行内容提供的最佳形式/格式的原因有许多，但是包括有关数字图像的清晰度或分辨率，数字图像文件的较大的大小的问题，也许最重要的是，在各种大小的显示器再现数字图像。例如，传统的数字图像可以是固定大小和配置，以致于计算机用户必须频繁地滚动他的或她的查看器来阅读文字。换句话说，数字图像中的文字相对于查看器的边界，不是可回流的。

将印刷的内容转换为数字形式的另一种方法涉及将打印图像转换为对应的数字文字。数字文字包括对应于可打印字符集的值，包括字母数字字符。示范性字符集包括ASCII、EBCDIC，以及Unicode字符集。然而，将印刷的内容转换为数字文字的过程，就内容提供商而言，要求比简单地生成数字图像要花费较大的精力。更具体来说，内容提供商必须首先生成(至少临时)内容的数字图像，然后，使用光学字符识别(OCR)软件将数字图像中的文字转换为数字文字。如本领域技术人员所理解的，OCR软件对数字图像进行扫描，这样做时，从数字图像中的像素识别数字字符。令人遗憾的是，当将像素的集合匹配到对应的字符时，OCR软件会产生错误，并且也常常出错。

将印刷内容转换为回流数字内容的一种方法涉及将数字图像中的内容处理为可以识别的段。在2006年3月28日提出的标题为“Method and System for Converting a Digital Image Containing Textto a Token-Based File for High-Resolution Rendering”(代理机构卷号26385)的同时待审和共同转让的专利申请中阐述了这样的方法的示例，该申请以引用的方式并入本文中。如此文所描述的，数字图像中的内容被分解为“符号”，例如，可以识别的内容段。接着，符号又可以被缩放和/或回流在查看器的边界内。一般而言，“回流”涉及行分段的调节和一组段落的配置。可以根据特定查看器的限制重新排列而没有缩放的数字内容可以在查看器内“回流”，是回流内容。

对于任何自动化转换过程，数字内容的准确性和呈现是重要的。这对打算提供已经转换的印刷内容来获取利润的内容提供商来说更是如此。令人遗憾的是，几乎所有的印刷内容都包括内容的区域或块，如果包括在内容的回流体中或者从特定空间排列修改，这些内容的区域或块可能会损坏经过转换的回流内容，或以别的方式使经过转换的内容的视觉显示退化。这些类型的“非回流”区域/块的示例包括，但不仅限于，页眉、页脚、边注、图表、图形、数学等式、表、程序列表、项目符号或编号列表、诗，以及，一般而言，其中的内容的空间排列(文本或以别的方式)对该内容非常重要的区域。

关于内容的“非回流”块，应该理解，论及那些由于一个原因或另一个原因不应该被“回流”的内容块时，一般使用此术语，而不管不应该回流内容的块的原因。更具体来说，术语“非回流内容块”包括流外的内容块(其中，内容涉及但是超出范围正常内容流之外，包括边注、页眉，以及页脚)和空间依赖的非回流内容块(其中，内容的空间排列阻止它被回流)两者，如科学公式、列表、表，等等。

非回流块经常可以包括某些文本内容。在这些情况下，则内容的回流体中包括文本内容可能会损坏内容的完整性。为进一步显示此点，图1是显示了包括回流和非回流块内容块的印刷内容的数字图像100的示意图。更具体来说，数字图像100包括两个文字段落，段落102和104，它们一般表示数字图像100的回流内容。另外，数字图像100包括各种非回流区域/块，包括页眉106、图片说明108、图形110、分隔行112，以及通过脚注号码从文字引用的脚注114。

相对于来自损坏回流内容的完整性的非回流块的内容，段落102的第一句，包括来自内容的前一页的文字(未显示)，如果被正确地转换，应该如下：

Half the information has been used to pad and rearrange(modulate)the data in sequences and patterns designed to beaccurately readable as a string of pulses.

然而，如果页眉106的“文字”将被错误地包括到段落202的回流内容中，上面的句子将读着：

Half the information has been used to pad and rearrange(modulate)the data in 180 Chapter 4 sequences and patterns designedto be accurately readable as a string of pulses.

显而易见，将“180 Chapter 4”添加到回流内容中，会损坏已经转换的内容，并产生将只能使读者产生混淆的情况。从此简单示例可以看出，防止非回流块的数据(如页眉106)损坏回流内容对于已经转换的内容的完整性是关键的。一般而言，在转换数字图像100的一般回流内容时避免处理非回流块中的内容，对所产生的数字内容的完整性是必不可少的。

令人遗憾的是，创建用于检测非回流内容块的自动化的过程，特别是当非回流内容块包括可以被作为回流内容转换的文本内容时，已经证明是难捉摸的。如此，在将已经转换的数字内容提供给“消费者”使用之前，当前需要手动编辑来编辑已经转换的数字内容或定稿。

本发明的某些方面旨在有效地处理数字图像100中的非回流内容块。本发明的其他方面进一步涉及识别要求手动编辑的经过转换的内容，从而集中精力，并减少了要执行的手动编辑的量。

发明内容

此“发明内容”介绍了简化形式的概念选择，在“具体实施方式”中将详细描述这些概念。此“发明内容”并不用于标识要求保护的主题的主要特点，也不用于帮助确定要求保护的主题的范围。

根据本发明的一些方面，提供了一种用于有效地将数字图像处理为回流内容的方法。该方法包括在计算机上执行的下列操作中的每一个操作。获取数字图像，以便进行处理。数字图像至少包括适于转换为回流内容的某些内容。数字图像被处理为数字内容文件。数字内容文件包括回流内容和非回流内容块两者。对于数字内容文件中的每一个非回流内容块，执行下面的操作。就是否应该手动评估所述非回流内容块以便进行编辑作出判断。如果判断应该对所述非回流内容块进行关于编辑的手动评估，则自动地触发关于编辑的手动评估。

根据本发明的额外的方面，提供了用于有效地评估被转换为数字内容的数字图像的计算机实现的过程。该过程包括下列步骤中的每一个步骤。获取从数字图像转换的数字内容文件。数字内容文件包括回流内容和非回流内容块两者。对所述数字内容文件进行扫描以获取非回流内容块。对于每一个遇到的非回流内容块，执行下面的操作。就是否应该手动评估遇到的非回流内容块以便进行编辑作出判断。如果判断应该对遇到非回流内容块进行关于编辑的手动评估，则自动地触发手动评估。

根据本发明的更进一步方面，提供了适于有效地评估数字内容以判断需要进行可能的手动编辑的计算机系统。该计算机系统包括处理器和存储器。该存储器包括一个或多个应用程序模块，当这些应用程序模块在计算机系统上执行时，使计算机系统执行下列操作。获取数字内容文件。数字内容文件包括从数字图像处理的回流内容和非回流内容。对数字内容文件进行扫描以获取非回流内容块。对于在数字图像中发现的每一个非回流内容块，执行下面的操作。就是否应该手动编辑非回流内容块作出判断。如果判断应该手动编辑所述非回流块，则调用一个或多个应用程序模块，以启动手动编辑会话。

附图说明

通过参考与附图一起进行的下面的详细描述，本发明的前述的方面和许多伴随的优点，将变得更加容易被理解，其中：

图1是显示了包括回流和非回流块内容块的内容的印刷页面的数字图像的示意图；

图2是显示了其中可以实现本发明的各个实施例的示范性计算环境的示意图；

图3是显示了根据本发明的一些方面的用于将包括回流和非回流内容块的数字图像处理为回流文档的图像处理系统的逻辑组件的方框图；

图4是显示了用于处理具有回流和非回流内容块两者的数字图像的示范性例程的流程图；以及

图5是显示了用于识别数字图像中的非回流内容块的示范性例程的流程图；

图6是显示了对应于内容的印刷页面的示范性页面图案的示意图；

图7A-7C是显示了包括数学公式的数字图像的示意图；

图8是显示了包括边注的数字图像的示意图；

图9是显示了包括图表以及图片说明的数字图像的示意图；

图10是显示了用于适于确定非回流内容块的范围的示范性例程的流程图；以及

图11是显示了用于使用自动化过程处理数字图像并且在自动化转换的置信度低于预定的阈值时触发手动评估和编辑的示范性例程的流程图。

具体实施方式

下面的详细描述提供了本发明的示范性实现方式。虽然显示了特定系统配置和流程图，但是，应该理解，所提供的示例不是详尽的，并且不将本发明限制到所说明的准确的形式。那些精通计算机、数字成像，以及内容转换领域技术的普通人员将认识到，这里所描述的组件和处理步骤可以与其他组件或步骤，或者，组件或步骤的组合互换，并仍能实现本发明的好处和优点。此外，在下面的描述中，阐述了很多具体细节，以便提供对本发明的全面的了解。然而，对那些精通本技术的人显而易见的是，可以在没有某些或全部这些具体细节的情况下实施本发明。在其他情况下，没有对已知的处理步骤进行详细描述，以便不致不必要地至于使本发明变得模糊。

还应该理解，下面的描述在很大程度上是通过可以由常规计算机组件执行的逻辑和操作呈现的。可以分组在同一个位置或分布在比较宽的区域的这些计算机组件，一般包括计算机处理器、存储器设备、显示设备、输入设备等等。在计算机组件被分散放置的情况下，通过通信链路，计算机组件能够被彼此访问。

关于数字图像，尽管典型的数字图像是基于光栅或矢量的文件，如JPEG和TIFF文件，但是，本发明没有这样的限制。更具体来说，除处理基于光栅和/或矢量的图像之外，本发明还可以转换其他类型的数字图像，如PDF图像，这些图像除基于像素的信息之外，还可以包括也可以不包括文字和/或文本格式的信息。相应地，尽管随后的讨论一般而言是针对数字图像进行的，但是，应该理解，它还可以包括许多种类的数字图像内容。

可以在各种计算设备和配置中对包括可回流的(“回流块”)和非可回流的(“非回流块”)内容块的数字图像进行处理。这些计算设备包括，但不仅限于，笔记本电脑或平板计算机、个人计算机、工作站、微型和大型计算机等等。这些计算设备也可以包括为处理数字图像而专门配置的计算机。然而，下面将参考图2描述合适的计算设备的一般体系结构。更具体来说，图2是显示了适于处理具有回流和非回流内容块两者的数字图像的计算设备200的示范性组件的方框图。然而，下面对计算设备200的示范性组件的描述应该被视为只是说明性的，而不应该理解为以任何方式对其限制。

参考图2，示范性计算设备200包括通过系统总线220与各种其他组件进行通信的处理器202。这些其他组件包括，作为示例，网络接口204、输入设备接口206、显示接口208，以及存储器210。如所属领域的技术人员所理解的网络接口204使计算设备200能与诸如因特网(未显示)之类的计算机网络上的包括计算机、数据源、存储设备等等的其他资源交换数据、控制信号、数据请求，及其他信息。网络接口204可以被配置为通过有线或无线连接进行通信。如本领域技术人员所理解的，计算设备200可以通过计算机网络从另一台计算机、存储设备，或其他源获取诸如数字图像100之类的数字图像，以及将经过处理的经过转换的内容保存在联网的位置或将它发送到网络上的另一台计算机。

输入设备接口206，有时也作为输入/输出接口来实现，使计算设备200能从各种设备，包括，但不仅限于，数字笔、触摸屏、键盘、鼠标、扫描仪等等，获取输入的数据。除上文所描述的示范性组件之外，显示接口208用于将显示信息输出到计算机用户。通常，显示信息是由显示器接口208通过显示设备(例如，CRT监视器、LCD屏幕、电视机、集成屏幕或屏幕组等等)进行输出的。当然，尽管未显示，本领域技术人员将认识到，显示设备可以作为计算设备200内的集成元件包括进来。

处理器202被配置为根据存储在存储器210中的编程指令进行操作。存储器210一般包括RAM、ROM，和/或其他永久性存储器。如此，除存储在读取/写入存储器(RAM)之外，编程指令也可以以只读格式存在，如在ROM或其他永久性存储器中的发现的那些。存储器210通常存储了操作系统212，用于控制计算设备200的一般操作。操作系统可以是诸如Microsoft

操作系统、

操作系统、

操作系统之类的通用操作系统，也可以是专门为计算设备200编写和定制的操作系统。类似地，存储器210通常也存储用户可执行的应用程序214，或程序，用于执行计算设备200上的各种功能。例如，可以根据本发明的一些方面配置存储器210中的应用程序214，以将包括回流和非回流块两者的数字图像100处理为识别用于再现的非回流内容的文档。

计算设备200可选地包括图像存储器216和内容存储器218。图像存储器216存储了用于处理为回流内容的数字图像。由于图像存储器216是可选的，数字图像100可以从连接到输入设备接口206的扫描仪获得或通过网络接口204从外部源获得。一旦处理了数字图像，则经过转换的数字内容存储在内容存储器218中。类似地，文档存储器也可以被视为可选的，因为所产生的数字内容可以通过显示器接口208立即发送给显示设备，流动到用户的计算机，或通过网络接口204流动到外部位置或资源，以便进行存储。

适于将数字图像处理为可回流的数字文档的数字图像处理系统可以用在计算设备200上实现的单一应用程序或模块来实现，用单一计算设备上的多个协作的应用程序/模块来实现，或以分布在计算机网络中的多个协作的应用程序和/或模块来实现。然而，不管数字图像处理系统的实际实现方式和/或拓扑如何，都可以利用各种逻辑组件来标识数字图像处理系统。为此，图3是显示了用于将包括回流和非回流内容块的数字图像100处理为文档的数字图像处理系统300的逻辑组件的方框图。类似地，图4是显示了用于使用图3的逻辑组件处理具有回流和非回流内容块两者的数字图像100的示范性例程400的流程图。

然而，应该指出的是，关于所显示的数字图像处理系统300(图3)，所显示的系统300包括图像存储器216和内容存储器218两者。然而，如上文所讨论的，包括图像存储器216和内容存储器218是示范性的/可选的，因为数字图像处理系统300可以从本地存储器(例如，图像存储器216)、网络源、或诸如扫描仪、数字照相机等等之类的数字图像生成设备来获取数字图像100。类似地，数字图像处理系统300可以向本地存储器(例如，内容存储器218)、网络源输出所产生的可回流的数字内容，或立即将它流动到用户那里，供显示/消耗。如此，尽管随后的对数字图像处理系统300和例程400的描述是参考图像存储器216和内容存储器218进行的，但是，这只是为了描述时简明和清晰，不应该被理解为对本发明作出限制。

参考图4的示范性例程400，进一步参考图3的数字图像处理系统300，在方框402中，图像输入组件302获取内容的数字图像100，包括回流和非回流内容块两者。如图3所示，在说明性实施例中，图像输入组件302从图像存储器216中获取数字图像100。

在方框404中，数字图像处理系统300，通过非回流内容识别组件304，识别数字图像100中的一个或多个非回流内容块。下面参考图5比较详细地描述了用于识别非回流内容块的类型的说明性例程。作为识别非回流内容块的过程的一部分，或除此之外，可以标记被识别的非回流内容块，或记录有关它们的信息，以便它们(非回流内容块)不与回流内容块一起处理。而是将非回流块分开处理(根本不处理。)

在方框406中，数字图像处理系统300，通过回流内容转换组件306，处理数字图像中的回流内容块。在上文引用的申请“Methodand System for Converting a Digital Image Containing Text to aToken-Based File for High-Resolution Rendering”中描述了处理回流内容块的过程，论及将内容处理为符号。

在方框408中，数字图像处理系统300，通过数字内容输出组件308，将经过处理的数字内容(包括经过处理的回流内容和已经识别的非回流内容块)输出到数字内容文件中，该文件将保存到内容存储器218中。在说明性实施例中，将非回流内容块复制到数字内容文件中，以便根据用户自行决定，由用户显示它们，战略上位于文档中，以便它们不损坏回流内容，或者，在某些情况下，根本不显示。页眉和页脚是可以根本不显示的非回流内容块的示例。另外，当将非回流块复制到数字内容文件中时，通常包括有关非回流内容块的某些信息。此信息包括，例如，非回流内容块的范围，其在数字图像100中的位置，置信度等级(如下面将讨论的)，标识非回流内容块的类型的类型指标(例如，页眉、页脚、图片说明、图表等等)等等。在将所产生的数字内容文件存储在内容存储器218之后，示范性例程400结束。

关于将非回流内容块存储在数字内容文件中的情况，并非所有的非回流内容块都要复制到数字内容文件中。具体来说，某些非回流内容块(如页眉和/或页脚)只是信息性的，并不包括关于可回流的内容的基本材料。如此，这些，及其他类型的非回流块，可以，也可以不复制到数字内容文件中，并且，如果复制到数字内容文件，可以抑制其随后显示在查看器中。

就存储所产生的数字内容而论，应该理解，所产生的内容可以放在易失性或非易失性存储器，放在本地或远程数据流中，或者，写入到文件中。相应地，尽管本讨论是参考可以存储在内容存储器218中的数字内容文件而进行的，但是，这只是为了说明，不应该理解为本发明作出限制。

关于非回流内容块，非回流内容块可以包括能转换为回流内容的某些文本内容。的确，许多类型的非回流内容块包括可以受益于到回流内容的转换的文本内容。例如，关于图1，脚注114完全由文本内容构成，当在计算机上显示给用户时，可以得益于转换为回流内容。相应地，尽管在图4中未显示，除将任何识别的非回流内容块作为静态图像输出到回流文档之外，具有被识别的非回流内容块的内容可以分别地被处理为回流内容，非回流内容块的回流内容保存到所产生的数字内容文件中。

关于识别数字图像中的非回流内容块，图5是显示了用于识别数字图像100中的非回流内容块的示范性例程500的流程图。从方框502开始，示范性例程开始扫描数字图像100，以获取非回流内容块，如下面所描述的。

在方框504中，非回流内容组件304扫描数字图像100以获取页眉和/或页脚。如本领域技术人员所容易理解的，印刷内容的很大的部分，特别是书和杂志，将包含一个或多个页眉和/或页脚。例如，至于图1，数字图像100包括页眉106。

在说明性实施例中，识别数字图像100中的页眉和/或页脚的过程可以依赖于定位页眉或页脚的图案特征。图6是显示了对应于内容的印刷页面的示范性页面图案600的示意图。由于容易被识别为“典型的”内容页面，页面图案600包括页眉区602、两个段落文字，页脚608，以及分隔行604和606。至于识别示范性例程500中的页面图案中的页眉和页脚，可以使用各种准则和/或识别特征。例如，尽管页眉和页脚可以是多行的，但是，页眉和页脚，根据它们的特征，分别位于页面的最顶部和最底部，即，打印页面上的第一个和最后一个项目。页眉和页脚经常，但不始终，通过诸如分隔行604或610之类的分隔行与页面内容的正文分离。然而，不管是否有分隔行，页眉和页脚也通常通过空白部分与页面内容的正文分离，如614处所示，空白处的量大于段落中的行距，如616所示，或段落之间的间距，如618所示。

页眉和页脚也可以在内容的多个页面之间或在内容的交替页面之间包括相同的或类似的内容。例如，页面编号，尽管经常随着每一页面而增加，将具有在多个页面内保持恒定的某些内容(如几十个或几百个数值)，并出现在页面上或交替的页面上的相同的位置或交替的位置。发现具有数字、编号或字母的序列(递增或递减)的重复行(在多个页面内或交替的页面内)，经常被视为表示页面编号，并可以用来识别页眉或者页脚中的一行或多行文字。标题、章的名称、节名称等等也是出现在页眉和页脚中的类似的文字的示例。

关于页面编号，所属领域的技术人员将理解，在某些上下文中，页面编号实际是缩小的，而不是增大。例如，在某些书中，书的前言部分是按降序排列的直至书的“第一”页。另外，增大和缩小的数值可以以罗马数字、字母数字或数值来显示。此外，当遇到页面编号时，可以提升/增大特定内容块是页眉或页脚的置信度等级。

页眉和页脚也可以包括典型的段落中所没有的对齐功能。例如，页眉602包括两个部分，610和612。部分610与页面600的最左边距左对齐，而部分612与页面600的最右边距右对齐。在图1的页眉106中也显示了页眉的这种特定对齐方式。这种对齐方式，以及其他对齐方式(如，标题位于中心，页边空白处有编页码)，说明了，页眉和/或页脚经常可以通过页眉和/或页脚中的文字之间的大量的间隙来进行识别。在图1中也显示了，尽管在图6中未显示，页眉和/或页脚可以不与内容的一般正文的边距对齐。更具体来说，页眉106比表示此图像的内容的一般正文的段落102和104距离数字图像100的左边更远。

在涉及识别页眉和/或页脚时可以使用的别一个“模式”是通过利用在多页文字中每行的平均字符数来分析内容的行中存在的字符的数量。页眉，以及，特别是，页脚中的行中的字符数量经常比文字的行中的平均字符数。

通过分析上文所描述的准则的一个或多个组合，以及将页眉和页脚与页面内容的其他部分区别开来的准则，非回流内容组件304识别数字图像100中的页眉和/或页脚。此外，一般而言，可以通过一个或多个方面识别每一个非回流内容块。相应地，在识别每一种类型的非回流块时，识别可以基于多个识别特征/方面中的一个或多个特征来进行。

再次返回到图5，如果非回流内容组件304识别数字图像100中的页眉和/或页脚，则例程进入方框506。在方框506中，非回流内容组件304将识别的图像区域标记为非回流内容块，以便回流内容转换组件306可以在转换回流内容过程中绕过此非回流块。

关于“标记”非回流内容块，它不是必需的，使用术语“标记”不一定应该在字面上理解为利用标记信息修改数字图像100。相反，“标记”应该被解释为保存，至少临时地，说明识别的非回流块的边界的信息，包括识别的非回流块的维度以及其在特定数字图像100中的位置。如此，标记信息可以被置于识别非回流内容块的数据结构，或数据结构系列中。可使此“标记”信息对回流内容转换组件306可用，以便可以从对内容的一般正文进行的处理过程中排除识别的非回流内容块。根据本发明的实施例，此标记信息以及其他信息，如置信度信息(下面将讨论)和非回流内容块类型，通常也与非回流内容块一起复制到可回流的数字内容文件中。

如果在数字图像100中没有识别页眉或页脚，或在将识别的页眉和/或页脚标记为在处理回流内容时加以排除之后，例程500进入方框508。在方框508中，非回流内容组件304扫描数字图像，以获取图片和/或关联的图片说明，如图1中的图片110和图片说明108。如上所述，如果识别了图片和/或图片说明，则在方框506中，非回流内容组件304将识别的内容块标记为非回流内容块，随后继续识别和标记额外的非回流内容块。

关于识别数字图像中的图片和关联的图片说明，所属领域的技术人员将理解，有现有的用于识别数字图像100内的图片/图形的技术，其中的任何一种技术都可以用于识别图片。尽管所显示的图形110(图1)没有环绕的边界，但是，图形经常存在于环绕的边界或框内。

诸如图1的图片说明108之类的图片说明包括描述了图片并被置于对应的图片的邻近的位置的某些文本内容。可以识别图片说明，因为它们通常通过空白与回流内容的常规的正文分隔，如图片说明110不与段落102和104对齐。此外，图片说明通常位于对应的图片的边界的附近，位于边界上，或位于边界内。

关于图片说明，尽管只就数字图像100中的图片进行本讨论的，但是，这只为了说明和清楚起见。图片说明经常与其他类型的非回流内容关联，包括表、图表、数学和/或科学公式、程序列表，列表等等。相应地，尽管这里只是就图片对图片说明进行描述的，但是，本发明不应该被理解为只与对应的图片一起识别图片说明。

再次返回到图5，在方框510中，非回流内容组件304扫描数字图像100以获取诸如图1中的脚注114之类的脚注。如果发现了脚注，则在方框506，非回流内容组件304将识别的脚注标记为非回流块，继续识别，并处理额外的非回流内容块。

有各种特征可以用来识别数字图像100中的脚注。脚注位于页面的底部或底部的附近；低于也许除了页脚之外的其他文字。经常，但不是始终，脚注通过分隔行与内容的正文分离。另外，脚注通常以脚注号码开始，此外，脚注号码经常作为脚注的正文上的上标来显示。更进一步，脚注，与页眉和/或页脚相同，也通常通过比通常在内容的一般正文中发现的空白更大的空白分隔。关于脚注114，发现了这些标志中的许多。例如，数字图像100包括在上标中以脚注号码“4”开始的脚注114；脚注114通过分隔行112与图像中的其他内容分离；脚注114与通过大量的空白与内容的正文分离。

在方框512中，非回流内容组件304扫描数字图像100以获取项目符号和/或编号列表。如果发现了项目符号和/或编号列表，则在方框506，非回流内容组件304将识别的列表标记为非回流内容块，返回，以继续识别，并处理其他非回流内容块。

项目符号或编号列表被视为非回流内容块，以便维持列表项之间的分隔。这当然并不意味着，单个元件中的文本内容不能是可回流的(如上文关于非回流块的内容处理的描述)，而是简单地意味着，应该维持列表元素的逐条记载。项目符号列表通常从内容的正文的左边距(而有时右边距)缩进。在缩进之后，项目符号列表项将包括初始符号或诸如＂·，＂＂■，＂或＂◆＂之类的“项目符号”。在项目符号之后，是列表项的文字的更多的缩进。下列组成要素说明了项目符号列表：

·此项目符号列表项从主要内容的左边距缩进。

·此项目符号列表项以表示诸如“·”的项目符号列表项的常见的符号开始。

·此项目符号列表项与其他列表项对齐。

编号列表具有项目符号列表的许多特征，包括缩进和对齐。然而，编号列表不是以初始符号开始，而是以递增的编号(或字母)开始。下面说明了示范性编号列表：

1.此编号项目从主要内容的左边距缩进。

2.此编号项目与其他编号项目对齐。

3.此编号项目及其他编号项目说明了递增的引导数字。

在方框514中，非回流内容组件304扫描数字图像100以获取诗。如果发现了诗，则在方框506，非回流内容组件304将识别的区域标记为非回流内容块，返回，以继续识别，并处理其他非回流内容块。

诗，也许比项目符号或编号列表更甚，依靠文字的配置来表达作者的意图。如此，任何回流，特别是涉及内容的一般正文，可以潜在地损坏散文的含义和/或计量。诗的最大的可能的特点是短行的文字被分组在一起。文字可以类似地缩进，但是，在某些情况下却不。

在方框516中，非回流内容组件304扫描数字图像100以获取程序列表。如果发现了程序列表，则在方框506，非回流内容组件304将识别的区域标记为非回流块，返回，以继续识别，并处理额外的非回流内容块。

程序列表通常的特征在于一系列语句(程序或例程的单独的逻辑指令)。经常，一个语句出现在单独的一行中，但是，这不是必需的。类似地，语句相对于页面的典型宽度可以非常长。程序列表中的语句通常包括各种级别的缩进，以说明进程控制、层次结构，和/或语句的嵌套。在打印内容中，程序列表通常与内容的正文的字体不同。

程序列表也经常包括预留的关键字和符号，因此，可以通过这些预留的关键字和符号来识别。尽管那些熟悉程序列表的人会理解，关键字和符号在编程语言之间会有点不同，在程序列表中经常出现的示范性关键字包括，但不仅限于：＂for，＂＂if，＂＂then，＂＂while，＂＂goto，＂＂return，＂等等。类似地，程序列表的示范性符号包括，但不仅限于：＂{}[]()％+-＊/<>＝＂。这些符号中的一些符号，特别是＂{}[]()＂，经常出现在对应的对中，即，“(”将与“)”配对，等等。

在方框518中，非回流内容组件304扫描数字图像100以获取数学和/或科学公式。如果发现了数学和/或科学公式，则在方框506，非回流内容组件304将识别的区域标记为非回流内容块，返回，以继续识别，并处理额外的非回流内容块。

数学和科学公式与程序列表的相似之处，可以通过特殊符号和/或关键字来识别它们。更具体来说，除语言特定的语法外，程序列表中的语句可以被视为简单的数学公式。例如，图7A显示了包括多个数学公式的内容的数字图像700，如在方框602和604中那样。可以看出，方框602中的公式606包括上文论及程序列表时所提及的多个数学符号，包括下列几个：＂{}()+＊-＝＂。诸如“π”和“θ”之类的希腊字母，常常是识别数学和/或科学公式的关键。关键字还表示数学和/或科学公式，如＂mod，＂＂cos，＂＂sin，＂＂log，＂等等。

关于识别数学或科学公式，根据一个实施例，一旦发现或识别了与数学或科学公式关联的符号或关键字，可以检查该符号/关键字的周围区域，以看看是否有可以被视为数学公式的组成部分。例如，图7B显示了公式606的数学等式。假设记号701(＂＝＂)被认为是数学公式的可能的候选，则检查周围区域，以查看是否有潜在地可能是公式的组成部分的其他符号。在此，记号703(“s”)，尽管不一定本身就是数学符号，可能是数学公式的组成部分，如在目前的情况下，并扩展定义了数学公式606的边界，以也将它包括进来。类似地，记号705(＂{＂)可以被识别为潜在的数学符号，并包括在数学公式的边界中，确切点说，扩展数学公式的边界，以包括记号705。继续扫描周围区域，直到发现了表示数学(或科学)公式的结束的某个标志。这些标志可以包括，但不仅限于，数字图像700的边缘、以前识别的非回流内容块的边界(如图片或图片说明)，空白的阈值量等等。此外，除扫描识别的记号或关键字的左侧和右侧之外，还应该扫描上方和下方的内容，以查找是否可能包括在数学公式的边界中。如此，方框702中所显示的两个数学公式可以分组在单一的非回流内容块(作为数学公式)，以便以后复制到所产生的数字内容文件中。

根据本发明的进一步的实施例，在处理周围区域以便包括在识别的数学公式之后，非回流内容组件304研究包括的内容，以判断内容是否本不应该包括在非回流数学公式中。例如，再次参考图7A，假设在尝试包括时，非回流内容组件304最初将行710包括到数学公式中，随后的评估进程可以判断，包括行710太过度了，并从数学公式中去除它，即，更改数学公式的边界，以排除行710。

除可识别的数学关键字和符号之外，数学公式常常包括使它们远离回流内容的一般正文的特定空间排列。更具体来说，数学公式具有彼此靠近地放在一起、甚至重叠的“内容”的多行，并不遵循内容的正常流动和常规的回流内容的间隔。为说明，图7C是显示了对说明数学公式720的空间排列特征有用的示范性数学公式720的示意图。如图7C所示，公式720包括如方框722-726所显示的文本内容的各种“行”。可以看出，方框722和724彼此毗邻，而方框726重叠了方框722和724两者。显而易见，此数学公式720中的内容的排列和典型的回流内容不一致，并使其与典型的回流内容区别开来，如图6所示。

再次参考图5，在方框520中，非回流内容组件304扫描数字图像100以获取边注。如果发现了边注，则在方框506，非回流内容组件304将识别的区域标记为非回流块，返回，以继续识别，并处理额外的非回流内容块。

边注通过在某种程度上涉及回流内容的主题的文本内容来代表，如常规内容的括号中的陈述。然而，简单地将边注的内容包括在常规的回流内容正文内将会损坏内容。边注，作为文字，可通过各种特征来与回流内容区别开。例如，边注经常被嵌入到边界框中，或位于正常的回流内容的外面。图8是显示了包括边注802的示范性数字图像800的示意图。可以看出，边注802由边界框进行定义。另外，在常规的回流内容和边注之间有相当大的空白。边注经常包括背景颜色(未显示)和/或以不同字体或着重(如粗体)来呈现。尽管在图8中未显示，但是，边注，正如图片、公式等等那样，可以与图片说明关联。

再次参考图5，在方框522中，非回流内容组件304扫描数字图像100以获取图表。如果发现了图表，则在方框506，非回流内容组件304将识别的区域标记为非回流块，返回，以继续识别，并处理额外的非回流内容块。

图9是显示了包括图表902的示范性数字图像900的示意图。图表通常包括图形和文字的组合，并可被识别。然而，诸如图表902之类的图表内的文字，只就图表的配置而论才有实际意义。如此，应该维持空间关系。

图表通常通过相当大的空白与常规内容分离。图表的位置通常是这样的，以便常规的文字可以围绕图表折回。类似于边注和图片，图表经常被边界框包围，虽然图表902没有框。图表也经常与诸如图片说明904之类的图片说明关联。

在方框524中，非回流内容组件304扫描数字图像100以获取表。如果发现了一个表，则在方框506，非回流内容组件304将识别的区域标记为非回流块，并返回。

如本领域技术人员将认识到的，表通常包括带有一般而言单元的均匀的行和列的边界框或边界。更具体来说，尽管某些单元可以与其他单元连接在一起，以产生较大的单元，代替一个或多个单个单元，表中的单元将仍符合表的一般行/列结构。单元经常包括文本内容。然而，表的行和列结构提供了表的单元格中的信息的上下文和含义，以致于自由地回流单元格内容将导致它丢失含义。如此，应该维持表的空间排列。

参考图5，在处理各种非回流内容的数字图像100之后，示范性例程500结束。然而，值得注意的是，尽管示范性例程500显示了处理非回流内容块的特定顺序，但是，此顺序只是说明性的，不应该被理解为对本发明作出限制。此外，尽管上文所描述的步骤显示了例程500是单独的并且是连续的，但是，这只是为了说明。在实际实施例中，可以实现任意数量的这些步骤，以便并行地运行和/或与其他步骤相结合地运行。

关于如上文所描述的识别数学或科学公式的范围的过程，特别是最初在包括潜在的内容时太过度了，并在随后评估内容以查看是否存在过度包括的情形，应该理解，这种做法一般可以应用于各种类型的非回流内容块。为此，图10是显示了用于适于确定非回流内容块的范围的示范性例程1000的流程图。

例程1000通过定位被标识为非回流内容块的一部分的某些内容来启动。如此，在方框1002，研究被标识为非回流内容块的一部分的内容周围的相邻区域。在判断方框1004，就是否有任何额外的潜在的内容(如包括在非回流内容块中的潜在的内容)位于相邻区域进行判断。如果发现额外的潜在的内容，则在方框1006中，示范性例程包括额外的潜在的内容，作为非回流内容块的部分。如上文所指出的，这很可能通过扩张非回流内容块的边界来进行以包括来自周围区域的额外的潜在的内容。此后(非回流块的边界扩张之后)，例程1000再次返回到方框1002。

一旦没有识别到有额外的潜在的内容要包括在非回流内容块中，例程1000进入方框1008中。在方框1008中，评估非回流内容块，以查找其作为非回流内容包括的似然率低于预定的阈值的内容。似然率判断通常是基于根据非回流内容块的特定类型而改编的启发规则而进行的。在判断方框1010中，就是否有任何不大可能的内容(低于预定的阈值)已经错误地包括在非回流内容块中进行判断。倘若如此，则例程进入方框1012，从非回流内容块的范围内去除不大可能的内容。此后，例程1000再次返回到方框1008，以进行如上文所描述的重新评估。一旦已经全部消除了其包括的似然率低于预定的阈值的全部内容，则例程1000结束。

显而易见，通过自动化过程判断某些内容是否是非回流内容的部分问题是，有时，它只不过是侥幸的脱险，例如，并不总是可以启发式地以较高置信度判断某些内容是否是非回流内容。要缓解这种置信度缺乏的情况，需要将数字图像100转换为具有差不多有100％准确性的回流内容。如此，根据本发明的一些方面，因为并非所有的都非回流块都以较高的置信度或确定性来进行标识，非回流内容识别组件304就其识别非回流内容块的置信度进行启发式判断，并将此置信度等级与非回流块一起存储在数字内容文件中。置信度等级的启发式判断可以对于每一种非回流内容块(例如，页眉、页脚、边注、列表、诗等等)而不同。通过存储与被识别的非回流块关联的置信度等级，能实现本发明的进一步的方面，即，以自动化过程有效地处理数字图像转换所采用的过程，当置信度等级低于预定的阈值时，进行手动校正。

图11是显示了用于使用自动化过程处理数字图像并且在自动化转换的置信度低于预定的阈值时触发手动评估和编辑的示范性例程1100的流程图。从方框1102开始，获取数字图像100，以便自动化处理为回流内容。在方框1104，数字图像100被处理为包括回流和非回流内容的数字内容。根据上文所描述的方面，复制到数字内容中的非回流内容，或识别的非回流内容块，包括，但不仅限于，有关块的边界的信息，它所在的数字图像中的位置，它将落在回流内容中的什么位置，非回流块的类型，以及表示非回流内容转换组件304分配给非回流内容块的置信水平的置信度等级。

在控制方框1106中，循环过程开始，迭代在方框1104中获取的数字内容中的每一识别的非回流内容块。更具体来说，对于每一种识别的非回流内容块，执行下面的步骤。在判断方框1108中，就分配给当前非回流内容块的置信度等级是否低于预定的阈值进行判断。例如，内容提供商可以希望评估低于75％置信度等级的全部识别的非回流内容块，以确保高准确性。也可以根据内容提供商的偏好，使用其他阈值，无论是较高的，还是较低的。

根据本发明的一个方面，可以使用多个预定的阈值，以便对于每一种类型的非回流内容块，有对应的预定的阈值(可以不同于其他预定的阈值)。例如，页眉的预定的阈值可以是“90”(设置得比较高，因为页眉不会在所产生的文档中显示)，而对应于图片说明的预定的阈值可以是“75”。如此，可以专门针对内容提供商的需求定制总的转换过程。如此，在某些实施例中，判断分配给当前非回流内容块的置信度等级是否低于适用于所有类型的非回流内容块的默认预定的阈值，而在其他实施例中，就非回流类型特定的预定的阈值作出判断。

如果分配给当前非回流内容块的置信度等级低于预定的阈值，则例程1100进入方框1110。在方框1110中，示范性例程触发当前非回流内容块的手动评估和编辑过程。评估和编辑过程通常将呈现数字图像100，识别的非回流内容块以及其类型，也将包括工作人员就已经评估的非回流内容块进行任何校正所需的工具。当然，已经触发的评估和编辑过程可以在检测到低置信度等级的时候进行，或排队，以便以后进行异步处理。

就手动评估和编辑过程而论，根据一个实施例，也可以将置信度等级呈现给执行手动评估的工作人员。此置信度等级可以作为数值来呈现，或者，也可以作为颜色和/或颜色的强度来呈现。一般而言，置信度等级可以通过特定字体、字体大小、颜色(例如，色调、饱和度、强度)，亮度、渐进或运动，或其他参数来表示。也可以显示符号或编号来表示置信度等级。在一个实施例中，当呈现用于手动评估和编辑的非回流块时显示给工作人员的颜色的强度直接涉及置信度等级和预定的阈值之间的差值。此外，所使用的颜色可以是非回流类型特定的，例如，红色表示页眉，或者页脚，蓝色表示图表，品红表示表等等。或者，尽管在某些情况下将置信度等级与非回流内容块一起显示是非常有益的，但是，置信度等级可能会对手动评估和编辑过程产生偏见的基础，而手动评估和编辑过程是要求没有偏见的意见的。相应地，显示置信度等级，无论是什么形式，应该被视为可选的，而不是强制性的。

在备选实施例中(未显示)，可以通过服务执行手动评估和编辑处理。更具体来说，非回流内容块，以及其他相关的信息，如，但不仅限于，其类型、从其中获取它的数字图像100中的上下文，置信度等级，以及数字图像，以及需要什么的描述，被张贴到服务提供商(在能够执行请求的服务的意义上)投标或接受报价来执行请求的操作的位置。在这种情况下，非回流内容块可以张贴到这种服务，以让服务提供商手动评估非回流块的内容，以判断是否错误地包括了任何内容。然后，来自手动评估的信息返回到过程中。

如果分配给当前非回流内容块的置信度等级满足或超过预定的阈值，或者，在对于非回流内容块触发手动评估和编辑之后，例程1100进入结束控制方块1112。在结束控制方框1112时，从控制方框1106开始的循环处理，就是否有需要评估的任何额外的识别的非回流内容块作出判断。如果是，那么，例程1100进入控制方框1106，在此，循环处理迭代到下一个需要评估的识别的非回流内容块，如上文所描述的。如果否，则示范性例程1100结束。

所属领域的技术人员将理解，对非回流块的手动编辑/校正可以会对其他经过处理的内容，包括回流和非回流块，产生显著的影响，即，某些回流内容可能会错误地包括在非回流内容块中。相应地，尽管在图11中未显示，但是，在手动评估和编辑步骤完成并对一个或多个非回流内容块进行编辑之后，对数字图像100进行重新处理，或者，换句话说，将可回流内容重新处理为排除了识别的(和编辑的)非回流内容块的回流内容。

尽管在图11中未显示，但是，在本发明的至少一个实施例中，在评估非回流内容块时可以应用特定顺序。更具体来说，可以按特定顺序评估低于非回流内容块的对应的预定的阈值的非回流内容块。例如，其置信度等级低于对应的预定的阈值的特定类型的非回流内容块，如页眉或页脚，可以在诸如表或项目符号列表之类的其他非回流内容块之前被处理。或者，低于其对应的预定的阈值的非回流内容块可以按对应于其置信度等级的顺序进行处理。例如，首先处理最高置信度等级的非回流块，接下来是处理具有较小的置信度等级的非回流块。

如本领域技术人员所理解的，一旦手动评估和编辑了非回流块，则当检测到类似的或基本上类似的情况时，可以在整个文档中类似地应用那些编辑结果。例如，由于页眉具有相同的或类似的在很多页面上重复的类似，假设手动评估和编辑了页眉，那么，对一个页眉作出的任何更改都可以适用于其他页眉非回流块。当然，页眉经常不完全类似，如当包括了页编号、章编号等等时。然而，当非回流块的内容基本上类似时，手动编辑结果相当可能适用。当出现此相似度或基本相似度时，根据一个实施例，对第一非回流内容块的手动更改/编辑结果自动地应用于整个数字内容文件中的其他类似的非回流内容块。

除如上文所描述的处理数字图像100之外，一旦数字图像100被处理为数字内容文件，就可以对数字内容文件进行进一步的处理，无论是内容提供商还是另一方进行处理。通常，这样的其他处理可能是进一步针对数字内容文件的计划的用途准备数字内容文件。例如，可以使用压缩技术对数字内容文件进行进一步的处理，以缩小数字内容文件的存储占用量，或进行格式化，以使数字内容文件具有适于在查看器中显示和/或供出售的格式。此外，还可以添加数字权限管理信息，以利用许可证控制经过处理的数字内容的使用。

尽管显示并描述了说明性实施例，但是，应了解，在不偏离本发明的精神和范围的情况下，可以作出许多更改。

Claims

1.一种适用于有效地评估数字内容以进行可能的手动编辑的计算机系统，所述计算机系统包括：

处理器；以及

存储器，其中，所述存储器包括一个或多个应用程序模块，所述应用程序模块当执行时，使所述系统执行下列操作：

获取数字内容文件，所述数字内容文件包括从数字图像处理的回流内容以及从所述数字图像复制的非回流内容；

对所述数字内容文件进行扫描以获取非回流内容；以及

对于在所述数字内容文件中发现的每一个非回流内容块：

判断是否应该手动编辑所述非回流内容块；以及

如果判断应该手动编辑所述非回流块，则调用一个或多个应用程序模块，以启动手动编辑会话。

2.根据权利要求1所述的计算机系统，其中，所述计算机系统进一步被配置为：

判断是否已经手动编辑了所述数字内容文件中的任何非回流内容块；以及

自动地将所述手动编辑结果应用到其他基本上类似的非回流内容块。

3.一种用于有效地将数字图像处理为回流内容的方法，所述方法包括由计算机执行的下列操作中的每一个操作：

获取用于进行处理的数字图像，所述数字图像至少包括适用于处理为回流内容的某些内容；

将所述数字图像处理为数字内容文件，所述数字内容文件包括回流内容和非回流内容块；以及

对于所述数字内容文件中的每一个非回流内容块：

判断是否应该手动评估所述非回流内容块以便进行编辑；以及

如果判断应该手动评估所述非回流内容块以便进行编辑，则自动地触发关于编辑的手动评估。

4.根据权利要求3所述的方法，其中，判断是否应该手动评估所述非回流内容块以便进行编辑的过程包括评估所述非回流块，以判断所述非回流内容块是否包括可能已经不正确地包括在所述非回流内容块中的内容。

5.根据权利要求3所述的方法，其中，判断是否应该手动评估所述非回流内容块以便进行编辑的过程包括，判断与所述非回流内容块关联的置信度等级是否低于预定的阈值，从而要求进行手动评估。

6.根据权利要求5所述的方法，其中，所述预定的阈值是根据所述非回流内容块的类型确定的。

7.根据权利要求6所述的方法，其中，自动地触发关于编辑的手动评估的过程包括在所述数字图像的上下文中将所述非回流内容块显示给工作人员，以便进行评估和编辑。

8.根据权利要求7所述的方法，其中，评估和编辑过程包括对所述非回流内容块进行外观检查。

9.根据权利要求7所述的方法，其中，所述非回流内容块和关联的置信度等级显示给工作人员。

10.根据权利要求9所述的方法，其中，所述关联的置信度等级是作为一个数值来显示的。

11.根据权利要求9所述的方法，其中，所述非回流内容块是以与所述非回流内容块的类型关联的颜色显示给工作人员的。

12.根据权利要求11所述的方法，其中，所述关联的置信度等级是作为与所述非回流内容块的类型关联的颜色的阴影来显示的。

13.根据权利要求5所述的方法，其中，将所述数字图像处理为可回流的文件的过程包括：

识别所述数字图像中的非回流内容块；

将置信度等级与每一个被识别的非回流内容块关联，所述置信度等级是所述被识别的非回流内容块只包括非回流内容的置信度的指标；

将所述数字图像的内容处理为排除了所述被识别的非回流内容块中的内容的回流内容；以及

包括所述关联的置信度等级，将所述回流内容和所述被识别的非回流内容块存储在所述数字内容文件中。

14.根据权利要求3所述的方法，进一步包括：

将所述数字图像重新处理为所述数字内容文件。

15.根据权利要求3所述的方法，进一步包括：

自动地将所述手动编辑结果应用到所述数字内容文件中的其他基本上类似的非回流块。

16.根据权利要求3所述的方法，其中，如果判断应该手动评估所述非回流内容块以便进行编辑，则立即触发所述关于编辑的手动评估。

17.根据权利要求3所述的方法，其中，如果判断应该手动评估所述非回流内容块以便进行编辑，则使所述关于编辑的手动评估排队用于后续处理。

18.用于执行根据权利要求3到17的中的任一权利要求所述的方法的计算机程序。