CN101354705B

CN101354705B - 文档图像处理装置和文档图像处理方法

Info

Publication number: CN101354705B
Application number: CN2007101296084A
Authority: CN
Inventors: 吴波; 窦建军; 乐宁; 吴亚栋; 贾靖
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-07-23
Filing date: 2007-07-23
Publication date: 2012-06-13
Anticipated expiration: 2027-07-23
Also published as: CN101354705A; US20090030882A1; JP2009026286A; JP4570648B2

Abstract

本发明提供一种可减少从文档图像中检索出所希望的标题所需的时间和劳力的文档图像处理装置。其中，由标题区域抽出部(301)检索索引信息DB(17)，并抽出包含检索关键词的标题区域。顺序设定部(302)对由标题区域抽出部(301)抽出的标题区域，按照预定的规则来自动地设定顺序。显示部(303)中，显示文档图像，而且在所显示的文档图像上，按照由顺序设定部(302)设定的顺序，来强调显示由标题区域抽出部(301)抽出的标题区域。也可以基于抽出的标题关键词的个数及文字图像的特征来判断重要性，并设定所显示的检索结果的顺序。

Description

文档图像处理装置和文档图像处理方法

技术领域

本发明涉及将文档作为图像来输入并存储的文档图像处理装置和文档图像处理方法，特别是涉及具有对于所存储的文档的检索功能的文档图像处理装置和文档图像处理方法。

背景技术

一种利用图像扫描仪等图像输入装置将文档转换成图像，并以电子方式进行存储，且在之后可以检索的文档归档装置已得到实用化。关于这样的文档归档装置的技术已公开在中国公开专利公报CN1402854A、中国公开专利公报CN1535430A以及中国公开专利公报CN1851713A中。

在以往的文档归档装置中，由于只是对检索关键词进行检索，并显示检索结果，所以用户需要查看所显示的检索结果来找出所希望的标题。从而，存在着为了找出所希望的标题而需要花费时间和劳力的问题。

发明内容

本发明的目的是，提供一种可减少从文档图像中找出所希望的标题而所需的时间和劳力的文档图像处理装置、及文档图像处理方法。

本发明提供一种文档图像处理装置，其特征在于，具有：

标题区域储存部，其对文档图像中存在的两个以上标题区域中所包含的文字图像，将图像特征匹配度高的文字图像作为候补文字来储存；

标题区域抽出部，其以构成所输入的检索式中的检索关键词的1个检索文字为单位，来检索标题区域储存部，并抽出包含检索关键词的标题区域；

顺序设定部，其对由标题区域抽出部抽出的标题区域，按照预定的规则来设定顺序；

显示部，其显示文档图像，而且在所显示的文档图像上，按照由顺序设定部设定的顺序，强调显示由标题区域抽出部抽出的标题区域，

还包括：

文档图像数据库，其在输入上述文档图像时，是对上述文档图像附加用于识别的文档ID来进行输入的；

标题区域初始处理部，其根据被输入到上述文档图像数据库中的上述文档图像的图像数据来定位文档图像中的标题区域，并作为该标题区域的图像抽出，该标题区域的图像包含两个以上文字的文字列；

文档图像特征数据库，其存储文字图像的特征；

文字图像特征抽出部，其将由上述标题区域初始处理部抽出的上述标题区域的图像分割为单个文字的文字图像之后，抽出各文字图像的特征，按每个文档图像存储在上述文档图像特征数据库中；

字形特征字典，其存储有字形的特征；

字形样本数据库；

索引信息数据库，其存储索引信息；

特征匹配部，其从上述文档图像特征数据库中读出包含在上述文档图像的标题区域中的文档图像的特征，根据读出的该特征，参照上述字形特征字典生成上述候补文字的索引矩阵，在该索引矩阵中包含文档ID和上述文档图像数据库内的该文档图像的保存位置的信息，作为索引信息存储在上述索引信息数据库中，

其中，上述字形特征字典中存储有由上述文字图像特征抽出部从预先存储在上述字形样本数据库中的所有基准文字图像中抽出的上述基准文字图像的抽出结果。

根据本发明，由标题区域抽出部检索标题区域储存部，并抽出包含检索关键词的标题区域。顺序设定部对由标题区域抽出部抽出的标题区域，按照预定的规则来设定顺序。显示部显示文档图像，而且在所显示的文档图像上，按照由顺序设定部设定的顺序，强调显示由标题区域抽出部抽出的标题区域。从而，可减少从文档图像中检索出所希望的标题所需的时间和劳力。

另外，本发明还具有如下特征，即：上述标题区域储存部对文档图像中存在的两个或两个以上标题区域，还储存文档图像中的标题区域的位置信息，

上述顺序设定部，对由上述标题区域抽出部抽出的标题区域，基于文档图像中的标题区域的位置信息来设定顺序。

根据本发明，顺序设定部，对由标题区域抽出部抽出的标题区域，基于文档图像中的标题区域的位置信息来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中检索出所希望的标题所需的时间和劳力。

另外，本发明还具有如下特征，即：上述顺序设定部在所输入的检索式中的检索关键词的个数是两个或两个以上的情况下，对由上述标题区域抽出部抽出的标题区域，基于标题区域中所包含的检索关键词的个数，来设定顺序。

根据本发明，顺序设定部在所输入的检索式中的检索关键词的个数是两个或两个以上的情况下，对由标题区域抽出部抽出的标题区域，基于标题区域中所包含的检索关键词的个数来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中检索出所希望的标题所需的时间和劳力。

另外，本发明还具有如下特征，即：上述顺序设定部对由上述标题区域抽出部抽出的标题区域，基于与检索关键词的一部分或全部一致的文字列部分的文字数来设定顺序。

根据本发明，顺序设定部对由标题区域抽出部抽出的标题区域，基于与检索关键词的一部分或全部一致的文字列部分的文字数，来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中检索出所希望的标题所需的时间和劳力。

另外，本发明还具有如下特征，即：上述顺序设定部对由上述标题区域抽出部抽出的标题区域，基于标题区域中所包含的文字图像的尺寸来设定顺序。

根据本发明，顺序设定部对由标题区域抽出部抽出的标题区域，基于标题区域中所包含的文字图像的尺寸，来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中检索出所希望的标题所需要的时间和劳力。

另外，本发明还具有如下特征，即：上述顺序设定部根据所输入的顺序变更指令，对由上述标题区域抽出部抽出的标题区域，变更顺序的设定。

根据本发明，顺序设定部根据所输入的顺序变更指令，对由标题区域抽出部抽出的标题区域，变更顺序的设定。由此，可重新适当地设定顺序，对于顺序的设定，可提高适应能力。

另外，本发明还具有如下特征，即：上述显示部能够设定强调显示的显示状态。

根据本发明，由于显示部可设定强调显示的显示状态，所以可满足对个性化的要求。

另外，本发明提供一种文档图像处理方法，其特征在于，具有：

标题区域储存步骤，对文档图像中存在的两个以上标题区域中所包含的文字图像，将图像特征匹配度高的文字图像作为候补文字来储存；

标题区域抽出步骤，以构成所输入的检索式中的检索关键词的1个检索文字为单位，来检索在标题区域储存步骤中储存的信息，并抽出包含检索关键词的标题区域；

顺序设定步骤，对在标题区域抽出步骤中抽出的标题区域，按照预定的规则来设定顺序；

显示步骤，其显示文档图像，而且按照在顺序设定步骤中设定的顺序，来强调显示在标题区域抽出步骤中抽出的标题区域，

还包括：

在输入上述文档图像时，对上述文档图像附加用于识别的文档ID，并将该文档图像输入到文档图像数据库中的步骤；

根据被输入到上述文档图像数据库中的上述文档图像的图像数据来定位文档图像中的标题区域，并作为该标题区域的图像抽出的标题区域初始处理步骤，该标题区域的图像包含两个以上文字的文字列；

将由上述标题区域初始处理步骤抽出的上述标题区域的图像分割为单个文字的文字图像之后，抽出各文字图像的特征，按每个文档图像存储在文档图像数据库中的文字图像特征抽出步骤；

从上述文档图像特征数据库中读出包含在上述文档图像的标题区域中的文档图像的特征，根据读出的该特征，参照字形特征字典生成上述候补文字的索引矩阵，在该索引矩阵中包含文档ID和上述文档图像数据库内的该文档图像的保存位置的信息，作为索引信息进行存储的特征匹配步骤，

其中，上述字形特征字典中存储有由上述文字图像特征抽出步骤从预先存储在字形样本数据库中的所有基准文字图像中抽出的上述基准文字图像的抽出结果。

根据本发明，在标题区域抽出步骤中，检索在标题区域储存步骤中储存的信息，并抽出包含检索关键词的标题区域。在顺序设定步骤中，对在标题区域抽出步骤中抽出的标题区域，按照预定的规则来设定顺序。在显示步骤中，显示文档图像，而且在所显示的文档图像上，按照在顺序设定步骤中设定的顺序，来强调显示在标题区域抽出步骤中抽出的标题区域。从而可减少从文档图像中检索出所希望的标题所需的时间和劳力。

本发明的目的、特点、以及优点，可通过以下的详细说明和附图而变得更明确。

附图说明

图1是表示本发明的一个实施方式的文档图像处理装置10的主要部分的构成的方框图。

图2是简要表示文档图像处理装置10的构成的方框图。

图3是用于简单说明由文档图像处理装置10进行的检索动作的图。

图4是表示在显示部303上显示的显示画面310的一例的图。

图5A是用于说明由顺序设定部302进行的顺序设定动作的第1例的流程图。

图5B是用于说明由顺序设定部302进行的顺序设定动作的第2例的流程图。

图5C是用于说明由顺序设定部302进行的顺序设定动作的第3例的流程图。

图6是表示变更顺序的设定时的显示画面320的一例的图。

图7是用于说明由顺序设定部02进行的顺序变更动作的流程图。

图8是用于说明由顺序设定部302进行的顺序设定动作的第4例的流程图。

图9是表示用于变更强调显示的显示状态的对话框330的一例的图。

图10是详细表示文档图像处理装置10的构成的方框图。

图11是表示制作字形样本数据库的处理的说明图。

图12是文字图像外围特征的说明图。

图13是网格方向特征的说明图。

图14是表示制作字形特征字典的处理的说明图。

图15是表示制作索引信息数据库的处理的说明图。

图16是使用具体例来表示制作索引矩阵的处理的说明图。

图17是表示文档图像例、和索引信息数据库中的该文档图像的索引信息的数据配置例的说明图。

图18是表示检索部的功能和检索处理的说明图。

图19是表示检索部中的检索步骤的流程图。

图20是表示计算出检索关键词与索引矩阵之间的相关度的方法的说明图。

图21是使用具体例来表示检索关键词与索引矩阵之间的相关度的计算的说明图。

图22是表示具备词汇解析功能的检索处理的说明图。

图23是表示文档图像管理部中的处理的说明图。

图24是使用具体例来表示对制作的索引矩阵进行调整而使第1列的文字列成为有意义的文字列的处理的说明图。

图25是表示在文档图像显示部上显示的在文档图像DB中储存的文档图像的阅览画面的说明图。

具体实施方式

下面，参照附图，对本发明的优选实施方式进行详细说明。

图1是表示本发明的一个实施方式的文档图像处理装置10的主要部分的构成的方框图。本实施方式的文档图像处理装置10用于将文档作为图像进行输入并存储，并通过检索所存储的文档图像来进行阅览。

文档图像处理装置10具有：文档图像数据库(文档图像DB)19、作为标题区域储存部的索引信息数据库(索引信息DB)17、关键词输入部24、标题区域抽出部301、顺序设定部302、显示部303、顺序变更指令输入部304、和显示状态设定部305。

文档图像DB19将文档图像与用于识别的文档ID相对应地进行保存。索引信息DB17保存与文档图像中存在的两个或两个以上标题区域有关的信息即索引信息。关键词输入部24输入检索关键词。

标题区域抽出部301检索索引信息DB17，并抽出包含检索关键词的标题区域。顺序设定部320按照预先规定的规则对由标题区域抽出部301抽出的标题区域设定顺序。由这样的标题区域抽出部301和顺序设定部302来构成检索部22。

显示部303显示在文档图像DB19中储存的文档图像，并且在所显示的文档图像上，按照由顺序设定部302设定的顺序，强调显示由标题区域抽出部301抽出的标题区域。

顺序变更指令输入部304输入用于对由标题区域抽出部301抽出的标题区域变更顺序的设定的顺序变更指令。显示状态设定部305输入用于设定由显示部303显示的强调显示的显示状态的指令。

图2是简要表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括处理器4、和储存用于使处理器4进行实际处理的软件等的外部存储装置5。

处理器4在实际中进行：从文档图像中抽出进行检索所需要的标题区域的文档图像特征抽出处理；生成能够进行对于文档图像的检索的索引信息的索引信息生成处理；使用了索引信息的检索处理；使用索引信息来制作后述的有意义的文档名，并管理文档图像的文档图像管理处理等。

处理器4中的实际的处理，根据在外部存储装置5中储存的软件来执行。处理器4例如由通常的计算机主体等来构成。在本实施方式中，处理器4还执行制作在索引信息生成处理中使用的后述的字形特征字典15(参照图10)的字形特征字典制作处理。

外部存储装置5，例如可由能够进行高速访问的硬盘等来构成。为了大量保存文档图像，外部存储装置5也可以是使用光盘等的大容量设备的构成。后述的字形特征字典15、索引信息DB17、文档图像DB19、字形样本DB(字形样本DB)13等由外部存储装置5构成。

文档图像处理装置10与键盘1连接，且与显示装置3连接。键盘1用于输入检索关键词。另外，键盘1还用于在阅览文档图像时输入指示。并且，键盘1还用于进行后述的候补文字数、相关值、以及行的相关度加权因数Q等的设定值的变更。显示装置3输出并显示文档图像等。在显示装置3中显示的内容中还包含相关度的信息、以及图像名称等信息。

文档图像处理装置10还与图像扫描仪2或数码相机6连接。图像扫描仪2和数码相机6用于取得文档图像。文档图像的取得不限于通过图像扫描仪2和数码相机6，也可以通过进行利用网络等的通信来取得。另外，也可以进行使用了图像扫描仪2或数码相机6的检索关键词的输入。

图3是用于简单说明由文档图像处理装置10进行的检索动作的图。在文档图像DB19中，存储有两个或两个以上文档图像。在索引信息DB17中，储存有关于在文档图像DB19中存储的各文档图像的索引信息。

当从关键词输入部24输入检索关键词并执行检索时，由检索部22检索索引信息DB17，并抽出与检索关键词匹配的文档图像。在显示部303上列举显示所抽出的文档图像的文档名。

在通过选择在显示部303上显示的文档图像的文档名而选择了1个文档图像时，由检索部22的标题区域抽出部301检索索引信息DB17，对于所选择的上述1个文档图像，抽出包含检索关键词的标题区域。然后，检索部22的顺序设定部302对于由标题区域抽出部301抽出的标题区域，按照预先规定的规则来设定顺序。

之后，显示部303中，显示所选择的上述1个文档图像，而且在所显示的文档图像上，按照由顺序设定部302设定的顺序，来强调显示由标题区域抽出部301抽出的标题区域。从而，可减少从文档图像中找出所希望的标题所需的时间和劳力。

当从顺序变更指令输入部304输入顺序变更指令时，顺序设定部302相应于所输入的顺序变更指令，对于由标题区域抽出部301抽出的标题区域，变更顺序的设定。而且，在显示部303中，在所显示的文档图像上，按照由顺序设定部302变更的顺序，来强调显示由标题区域抽出部301抽出的标题区域。也可以构成为：关于这样的顺序的设定变更的信息，储存在索引信息DB17中，在下一次检索中的顺序设定时，使用该信息。

当从显示状态设定部305输入来用于设定由显示部303显示的强调显示的显示状态的指令时，显示部303中，相应于所输入的指令，设定由显示部303显示的强调显示的显示状态。显示部303中，在所显示的文档图像上，按照由顺序设定部302设定的顺序，以所设定的显示状态来强调显示由标题区域抽出部301抽出的标题区域。

图4是表示在显示部303上显示的显示画面310的一例的图。显示画面310具有列举并显示文档图像的文档名313的文档名显示区域311、和显示文档图像的文档图像显示区域312。文档名显示区域311配置在显示画面310的靠左侧，文档图像显示区域312配置在显示画面的靠右侧。通过选择在文档名显示区域311中显示的文档图像的文档名313，来选择与所选择的文档名对应的文档图像。然后，在文档图像显示区域312中显示所选择的文档图像314。顺序为最上位的标题区域316，配置在文档图像显示区域312内的预定的设定位置上。设定位置例如被设定在文档图像显示区域312内的左上位置315。

顺序为最上位的标题区域(以下称为“主区域”)316，以第1显示状态被强调显示，顺序为第2以下的标题区域(以下称为“副区域”)317，以与第1显示状态不同的第2显示状态被强调显示。在本实施方式中，主区域316由第1颜色的包围线318包围，副区域317由与第1颜色不同的第2颜色的包围线319包围。这样，主区域316与副区域317被区别并强调显示。强调显示的显示状态针对主区域316和副区域317分别独立地设定。

上述的显示状态只是一例，并不仅限于此。例如，也可以不基于颜色的不同，而基于线的种类的不同或线的宽度的不同，来区别主区域316和副区域317。并且，也可以取代包围线而使用下划线。

图5A是用于说明由顺序设定部302进行的顺序设定动作的第1例的流程图。当选择在文档名显示区域311中显示的文档图像的文档名313的1个，来选择1个文档图像时，标题区域抽出部301检索索引信息DB17，并对所选择的上述1个文档图像抽出包含检索关键词的标题区域。当对所选择的上述1个文档图像，抽出了包含检索关键词的标题区域时，开始由顺序设定部302进行的顺序设定动作。

当开始顺序设定动作时，首先，在步骤a1中，判断检索式中的检索关键词的个数是否为两个或两个以上。在检索式中的检索关键词的个数为两个或两个以上时，进入步骤a2，在检索式中的检索关键词的个数为1时，进入步骤a5。

在步骤a2中，对所抽出的全部标题区域进行检索关键词的个数的计数。然后，在步骤a3中，判定包含最多的检索关键词的标题区域是否为1个。在包含最多的检索关键词的标题区域为1个时，进入步骤a4，在包含最多的检索关键词的标题区域为两个或两个以上时，进入步骤a9。

在步骤a5中，对所抽出的全部标题区域，分析文档图像中的位置信息。然后，在步骤a6中，判定是否存在位于文档图像的最上部的靠左位置，且与其它标题区域的距离超过了预定的阈值T的标题区域。在判定为存在如上述那样的标题区域时，进入步骤a7，在判定为不存在如上述那样的标题区域时，进入步骤a8。

在步骤a9中，对包含最多检索关键词的两个或两个以上标题区域，分析文档图像中的位置信息，并进入步骤a6。

在步骤a4中，将包含最多检索关键词的标题区域判定为主区域。在步骤a7中，将位于文档图像的最上部的靠左位置，且与其它标题区域的距离超过了预定的阈值T的标题区域判定为主区域。在步骤a8中，将所抽出的全部标题区域中位于最上部的标题区域判定为主区域。

在判定了主区域后，在步骤a10中，对除了所抽出的标题区域中的主区域的剩余的标题区域，用同样的处理方法设定顺序。将上述剩余的标题区域判定为副区域。之后，结束顺序设定动作。

这样，顺序设定部302对由标题区域抽出部301抽出的标题区域，基于文档图像中的标题区域的位置信息，来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题而所需的时间和劳力。

另外，顺序设定部302在所输入的检索式中的检索关键词的个数为两个或两个以上的情况下，对由标题区域抽出部301抽出的标题区域，基于标题区域中所包含的检索关键词的个数，来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题所需的时间和劳力。

图5B是用于说明由顺序设定部302进行的顺序设定动作的第2例的流程图。第2例的顺序设定动作由于与第1例的顺序设定动作类似，所以省略对相同点的说明。在第2例中，与第1例同样地开始由顺序设定部302进行的顺序设定动作。

当开始顺序设定动作时，首先，在步骤a11中，判定检索关键词的文字数是否为两个或两个以上。在检索关键词的文字数为两个或两个以上时，进入步骤a12，在检索关键词的文字数为1个时，进入步骤a15。

在步骤a12中，针对所抽出的全部标题区域，对与检索关键词的一部分或全部一致的文字列部分的文字数即一致文字数进行计数。然后，在步骤a13中，判定具有最多的一致文字数的标题区域是否为1个。在具有最多的一致文字数的标题区域为1个时，进入步骤a14，在具有最多的一致文字数的标题区域为两个或两个以上时，进入步骤a19。

在步骤a14中，将具有最多的一致文字数的标题区域判定为主区域。步骤a15～a18与第1例中的步骤a5～a8相同。在步骤a19中，对具有最多的一致文字数的两个或两个以上标题区域，分析文档图像中的位置信息，进入步骤a16。

在判定了主区域之后，进入步骤a20。步骤a20与第1例中的步骤a10相同。之后，结束顺序设定动作。

这样，在第2例中，与第1例同样，顺序设定部302对由标题区域抽出部301抽出的标题区域，基于文档图像中的标题区域的位置信息，来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题所需的时间和劳力。

另外，在第2例中，顺序设定部302对由标题区域抽出部301抽出的标题区域，基于与检索关键词的一部分或全部一致的文字列部分的文字数来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题所需的时间和劳力。

图5C是用于说明由顺序设定部302进行的顺序设定动作的第3例的流程图。第3例的顺序设定动作，由于与第1例的顺序设定动作类似，所以省略对相同点的说明。在第3例中，与第1例同样地开始由顺序设定部302进行的顺序设定动作。

当开始顺序设定动作时，首先，在步骤a21中，判定检索关键词的文字数是否为两个或两个以上。在检索关键词的文字数为两个或两个以上时，进入步骤a22，在检索关键词的文字数为1个时，进入步骤a25。

在步骤a22中，针对所抽出的全部标题区域，对与检索关键词的一部分或全部一致的文字列部分的文字数即一致文字数进行计数。然后，在步骤a23中，判定具有最多的一致文字数的标题区域是否为1个。在具有最多的一致文字数的标题区域为1个时，进入步骤a24，在具有最多的一致文字数的标题区域为两个或两个以上时，进入步骤a25。

在步骤a24中，将具有最多的一致文字数的标题区域判定为主区域。在步骤a25中，对包含尺寸最大的文字图像的标题区域，分析文档图像中的位置信息。文字图像的尺寸可以是文字图像的关于文字的高度方向的尺寸，或者也可以是文字图像的关于文字的宽度方向的尺寸。另外，文字图像的尺寸也可以是文字图像的对角线的尺寸。而且，文字图像的尺寸也可以是文字图像的面积。然后，进入步骤a26。步骤a26～a28与第1例中的步骤a6～a8相同。

在判定了主区域之后，进入步骤a29。步骤a29与第1例中的步骤a10相同。之后，结束顺序设定动作。

这样，在第3例中，与第1例同样，顺序设定部302对由标题区域抽出部301抽出的标题区域，基于文档图像中的标题区域的位置信息，来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题所需的时间和劳力。

另外，在第3例中，顺序设定部302对由标题区域抽出部301抽出的标题区域，基于与检索关键词的一部分或全部一致的文字列部分的文字来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题所需的时间和劳力。

并且，在第3例中，顺序设定部302对由标题区域抽出部301抽出的标题区域，基于标题区域中所包含的文字图像的尺寸来设定顺序。由此，可确实地设定顺序，且可减少从文档图像中找出所希望的标题所需要的时间和劳力。

图6是表示变更顺序的设定时的显示画面320的一例的图。当在显示了上述图4所示的显示画面的状态下选择了副区域317的一个时，显示对话框321。利用该对话框321，来指定是否将所选择的1个副区域设定为主区域。

图7是用于说明由顺序设定部302进行的顺序变更动作的流程图。由顺序设定部302进行的顺序变更动作，在对所抽出的标题区域设定了顺序后开始。

当开始顺序变更动作时，在步骤b1中，判定是否从顺序变更指令输入部304输入了顺序变更指令。顺序变更指令，在利用图6所示的对话框321指令了将所选择的1个副区域设定为主区域时，从顺序变更指令输入部304输入。

在顺序变更指令被输入之前，反复执行步骤b1的动作，在判定为输入了顺序变更指令时，进入步骤b2。在步骤b2中，相应于所输入的顺序变更指令，来变更对标题区域的顺序的设定。具体是，将所选择的1个副区域的顺序设为最上位，将上述1个副区域设为主区域。而且，将设定变更前的主区域的顺序设为第2位，将上述主区域设为副区域。并且，对于剩余的标题区域也适当地错开顺序。在对各个标题区域变更了顺序的设定后，返回到步骤b1。

这样，顺序设定部302相应于所输入的顺序变更指令对由标题区域抽出部301抽出的标题区域，变更顺序的设定。由此，可适当地重新设定顺序，且对于顺序的设定，可提高通融性。

图8是用于说明由顺序设定部302进行的顺序设定动作的第4例的流程图。第4例的顺序设定动作，由于与第1例的顺序设定动作类似，所以省略对相同点的说明。在第4例中，与第1例同样地开始由顺序设定部302进行的顺序设定动作。

当开始顺序设定动作时，首先，在步骤c1中，判定是否需要再次重新抽出标题区域。具体是，判定所抽出的标题区域的个数是否在规定的范围内。换言之，在所抽出的标题区域的个数过多或过少的情况下，判定为需要再次进行抽出。在需要再次抽出时，进入步骤c2，在不需要再次抽出时，进入步骤c3。

在步骤c2中，执行上述图5A所示的第1例的顺序设定动作。在步骤 c3中，变更检索式。然后在步骤c4中，使用在步骤c3中变更的检索式，再次重新抽出标题区域，并返回到步骤c1。

通过进行这样的顺序设定动作，强调显示适当个数的标题区域，由此也可以减少从文档图像中找出所希望的标题所需的时间和劳力。

也可以构成为，由用户进行上述步骤c1的判定。在这样的情况下，也可以减少从文档图像中找出所希望的标题所需的时间和劳力。

图9是表示用于变更强调显示的显示状态的对话框330的一例的图。在对话框330中，具有用于设定主区域的显示状态的主区域设定区域331、和用于设定副区域的显示状态的副区域设定区域332。主区域设定区域331配置在对话框330的左边，副区域设定区域332配置在对话框330的右边。

由于主区域设定区域331的构成与副区域设定区域332的构成类似，所以对与对应的部分标记相同的符号，并只对主区域设定区域331的构成进行说明，省略对副区域设定区域332的构成的说明。主区域设定区域331具有用于选择线颜色的区域333、用于选择线种类的区域334、和用于选择线宽度的区域335。在图9所示的一例中，作为线的种类，选择直线下划线或波浪线下划线的任意一种。利用这样的对话框330来设定主区域的显示状态和副区域的显示状态。

这样的显示部303由于能够设定强调显示的显示状态，所以可满足对个性化的要求。

图10是详细表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括：文字数据库输入部(文字DB输入部)11、文字正规化处理部12、字形样本DB13、文字图像特征抽出部(图像特征抽出部)14、字形特征字典15、特征匹配部16、索引信息DB17、标题区域初始处理部18、文档图像DB19、文档图像特征数据库(文档图像特征DB)20、文档图像输入部21、检索部22、词汇解析部23、关键词输入部24、检索结果显示部25、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54。

其中，由文字DB输入部11、字体正规化处理部12、字形样本DB13、文字图像特征抽出部14、字形特征字典15构成实施上述的字形特征字典制作处理的字形特征字典生成部30。

首先，对构成字形特征字典生成部30的上述功能模块11、12、13、14、15进行说明。

文字DB输入部11用于输入为制作字形特征字典15所需的成为基本的文字数据库。如果本装置是例如中文对应的装置，则输入中华人民共和国GB2312的全部6763个文字等。另外，如果本装置是日语对应的装置，则输入JIS第1标准的约3,000个字种等。即，这里所说的文字中包含符号。这样的文字DB输入部11由处理器4构成，且文字数据库由记录媒体、或通过网络等来供给。

字体正规化处理部12用于对由文字DB输入部11输入的文字数据库中所包含的全部文字，制作不同字体和字号的文字图像。不同字体和字号的文字图像被储存在字形样本DB13中。

图11表示字体正规化处理部12制作字形样本DB13的处理。在字体正规化处理部12中，如果本装置是中文对应的装置，则具备例如宋体、仿宋体、黑体、楷体等字形样本12a。另外，如果本装置是日语对应的装置，则具备MS明朝、Gothic体…等字形样本。

字体正规化处理部12中的变形处理部12b，对文字数据库的文字进行图像化，并对文字图像进行标准化处理。然后，变形处理部12b参照字形样本12a，对标准化处理后的文字图像实施变形处理，并进一步改变为不同字体和大小的文字图像。变形处理中，包括例如模糊化处理、扩大/缩小化处理、细微化处理等。字体基准部12c将这样变形处理后的文字图像作为基准文字图像储存到字形样本DB13中。

在字形样本DB13中，针对文字数据库的所有文字，即使是相同的文字，也储存有对应每个由字体、大小决定的字形的基准文字图像。如果举例说明，则，即使文字种类都是“中”，也存在仅相当于所决定的字体的数量的不同形状的基准文字图像的“中”，另外，还储存有仅相当于所决定的大小的数量的不同大小的基准文字图像的“中”。

文字图像特征抽出部14是抽出文字图像的特征(图像特征)，并储存到字形特征字典15中的部分。在本实施方式中，文字图像特征抽出部14根据文字图像外围特征与网格方向的组合，来抽出文字图像的特征，并设为特征矢量。另外，文字图像的特征不限于这些，也可以抽出其他特征来形成特征矢量。

这里，预先对文字图像外围特征和网格方向特征进行说明。图12是文字图像外围特征的说明图。所谓文字图像外围特征是指从文字图像的外部观察的轮廓的特征。如图12所示，从文字图像的外接矩形的4边进行扫描，并将从白像素变化为黑像素时的点为止的距离作为特征，取出最初变化的位置和第二次变化的位置。

例如，在将外接矩形分割成X行Y列的场合下，以行为单位分别从左方向和右方向扫描图像，以列为单位分别从上方向和下方向扫描图像。另外，图12是表示以行为单位从左进行扫描的图。

另外，在图12中，用实线箭头1表示最初从白像素变化为黑像素时的点为止的扫描轨迹。虚线箭头2表示第二次从白像素变化为黑像素时的点为止的扫描轨迹。实线箭头3表示最终也未能检测到从白像素变化为黑像素的点的情况下的扫描轨迹，在这种没有变化点的场合下，距离值为0。

另外，图13(a)(b)是网格方向特征的说明图。将文字图像分割成粗网格，对各格子区域内的黑像素，向预先确定的两个或两个以上方向延伸触手。然后，对在各方向上连接的黑像素的像素数进行计数，并将表示该黑像素按各方向成分的分布状况的方向影响度，作为识别函数采用欧几里得距离，并利用与黑像素数之差相应的值，对距离值进行除法运算，而计算出距离值。

在图13(a)中，将文字图像分割成4×4共16个格子，且以在X轴方向上最接近于格子交点的从黑像素变化为白像素的点为中心，向X轴方向(0°)、45°方向、Y轴方向(90°)的3个方向延伸触手。

在本实施例中，将文字图像分割成8×8的4角的网格，并如图13(b)所示，向0°、45°、90°、135°、180°、225°、270°、315°这8个方向延伸触手。

另外，作为网格方向的特征的抽出方法，有设置触手的延伸方向、延伸触手的中心点的方法等各种方法，例如记载在日本专利特开2000-181994号公报等中。

文字图像特征抽出部14，对储存在文字形状样本DB13中的所有的基准文字图像进行这样的文字图像的特征的抽出。然后，文字图像特征抽出部14将储存在字形样本DB13中的基准文字图像的抽出结果储存到字形特征字典15中，而生成字形特征字典15。

图14是表示制作基于文字图像特征抽出部14的字形特征字典15的处理的图。文字图像特征抽出部14中的字形标准化部14a从字形样本DB13中取出基准文字图像，文字图像特征取出部14b从由字形标准化部14a取出的基准文字图像中取出其特征。然后，特征分类部14c参照字形样本DB13，对从按每个基准文字图像抽出的特征进行分类，并储存到字形特征字典15中。

在文字图像特征取出部14b中，如上述那样，按每个单个文字，求出基于带加权的不同基准文字图像的特征的适应值，并取得基准文字图像的标准特征。

文字图像特征取出部14b通过对不同字体字号进行加权，可制作不同的字形特征字典。通过融合多字体的图像特征，且以单个文字图像特征为单位来制作字形特征字典，可满足多字体/字号文档图像的自动检索和管理。

下面，说明构成实施文档图像特征抽出处理的文档图像特征抽出部31的文档图像DB19、文档图像特征DB20、标题区域初始处理部18、文字图像特征抽出部14。

文档图像DB19是在由文档图像输入部21输入文档图像时，对其附加用于识别的文档ID并进行保存的数据库。

标题区域初始处理部18是在文档图像DB19中保存了新的文档图像时，根据其图像数据来定位并抽出文档图像中的标题区域，然后将文字图像送到上述的文字图像特征抽出部14的。

图17表示对文档图像50以T1、T2、T3这3个区域定位为标题区域的状态。根据该图17也可以看出，将文档图像50中的标题部分作为标题区域T抽出。

由标题区域初始处理部18抽出并送到文字图像特征抽出部14的文字图像，通常是包含两个或两个以上文字的文字列的图像。从而，在以下的说明中，将由标题区域初始处理部18送来的文字图像设为文字列的图像。

在本实施方式中，标题区域初始处理部18利用投影法和连通区域统计分析来进行标题区域T的定位和抽出。另外，这样的标题区域T主要相当于标题部分，例如可以采用在日本专利特开平9-319747号公报、日本专利特开平8-153110等所记载的方法等各种以往的方法。

由于不是将文档图像的全部文字区域(文本区域)作为对象，而是如上所述仅将标题区域T定位并抽出，所以可减少成为检索对象的信息量，并缩短检索时间。

其中，不是对全部的文本区域进行定位而仅对标题区域T进行定位的事项，对于检索而言并不是必须的构成要素，也可以对全文的文本区域进行定位并抽出。但是，对于后述的有意义的文档名的制作而言，仅对标题区域T进行定位是必须的构成要素。

文字图像特征抽出部14，对于从标题区域初始处理部18输入的文字列的图像，分割成单个文字的文字图像，然后与字形特征字典15的制作时同样，抽出各文字图像的特征。然后，将抽出的特征，在文档图像特征DB20中按每个文档图像进行储存。

在文档图像特征DB20中，由标题区域初始处理部18抽出的标题区域T中所包含的文字列的图像的特征信息，作为构成文字列的各文字的各自的特征(特征矢量)而被储存。

如图17所示，对于1个文档图像50，将在所抽出的全部标题区域T1、T2、T3…中所包含的文字列的文字图像的特征，即构成文字列的各文字的文字图像的特征，与文档图像50的文档ID一同储存。

下面，说明构成实施索引信息制作处理的索引信息生成部32的文字图像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文档图像特征DB20。

文字图像特征抽出部14、字形特征字典15、文档图像特征DB20的功能，与上述的说明相同。

特征匹配部16是从文档图像特征DB20中读出在文档图像的标题区域T中所包含的文字图像的特征，基于该读出的特征，参照字形特征字典15，如后述那样制作索引矩阵，并生成文档图像的索引信息的部分。

这里，对应1个文档图像生成1个索引信息，并按每个标题区域T制作索引信息中所包含的索引矩阵。从而，在1个文档图像内存在两个或两个以上标题区域T的场合下，在该文档图像的索引信息中包含两个或两个以上索引矩阵。

图15表示制作索引信息DB17的处理。如上所述，当某个文档图像被输入并被储存到文档图像DB19中时，文字图像特征取出部14b抽出在各标题区域T中所包含的文字列的文字图像的特征，并储存到文档图像特征DB20中。

特征匹配部16从文档图像特征DB20中读出各标题区域T中所包含的文字列的图像的特征，且按每个单个文字与字形特征字典15内的基准文字图像进行匹配，而制作标题区域T各自的索引矩阵。

然后，特征匹配部16将该文档图像的其他信息，即文档ID和文档图像DB19内的该当的文档图像的保存位置的信息等包含在这些索引矩阵中，而作为索引信息储存到索引信息DB17中。

图16表示基于特征匹配部16的制作索引矩阵的处理的一例。图16是说明针对图17中的标题区域T3中所包含的文字列“去神仙居住的地方”这8个文字图像，制作索引矩阵的说明图。

文字列“去神仙居住的地方”被分割成单个文字图像“去”“神”“仙”“居”“住”“的”“地”“方”。将这样的文字列的图像分割成单个文字的图像的处理，可利用以往常用的方法。

在“去”…“方”这8个文字中，按照排列顺序附加1～8的编号，即对“去”附加1、对“神”附加2、…对“方”附加8。该编号相当于索引矩阵的行编号。

对这样的所有的8个文字图像，实施如下的处理，即：取出针对被储存在图16中参照符号A所示的文档图像特征DB20中的文字图像“去”的特征(S1)，并参照字形特征字典15，按照特征相近(匹配度高)的顺序，选择N个候补文字(S2)。

对按照匹配度从高到低的顺序抽出的N个候补文字，附加与抽出顺序相应的编号，该编号相当于索引矩阵的列编号。然后，根据该列编号，来设定表示检索关键词中所包含的各检索文字与候补文字之间的匹配度的文字相关值(相关值)。

在图16中，由参照符号100所表示的表表示文字列“去神仙居住的地方”的索引矩阵的内容。例如，对于第5个文字的“住”的文字图像，在行编号为5的行中，从匹配度高的第1列，顺序地抽出“任”、“佳”、“住”、…、“仁”的候补文字。在表100中，例如候补文字“去”的索引矩阵内的位置是[1，1]，候补文字“屑”的位置是[4，2]，候补文字“仁”的位置是[5，N]。

另外，在图16的表100中，为了有助于理解，对于与文字列的各文字对应的候补文字附加○进行表示。

对于这样的索引矩阵的行数M，根据由标题区域初始处理部18作为标题区域T而抽出的文字列的图像的文字数来决定。另外，列数N是根据针对1个文字所选择出的候补文字数来决定。从而，根据本发明，可通过改变索引矩阵的维数(列数)，来灵活地设定索引矩阵内的要素数，即候补文字数量。因此，在文档图像的检索中，可以进行正确且几乎无遗漏的检索。

在索引矩阵中，可以与检索关键词的输入方法相应地适当设定所选择的候补文字的信息赋予方式。例如，如果是由键盘1来输入检索关键词的构成，则以文字代码等信息的形式储存候补文字，从而能够对从键盘输入的检索关键词进行检索。

另外，如果是采用图像扫描仪2等以图像数据的形式输入检索关键词的构成，则也可以抽出检索关键词的特征(特征矢量)，以特征(特征矢量)信息的形式储存候补文字，从而能够对特征矢量彼此进行比较。

图17表示索引信息DB17中的索引信息的数据配置例。在存在两个或两个以上标题区域T1、T2、T3、…、Tn的文档图像50的索引信息中，针对两个或两个以上标题区域T1、T2、T3、…、Tn制作的索引矩阵配置成线形。在图17的例中，文档ID被配置在先头，接下来配置两个或两个以上索引矩阵，最后配置保存位置的信息。这里，5×N表示索引矩阵的大小，表示5行N列的情况。

通过预先将索引信息进行这样的数据配置，可以迅速地定位文档图像DB19内的文档图像的储存位置、和文档图像中的标题区域T的位置，并用于检索结果的显示。

另外，索引信息包含两个或两个以上标题区域T1、T2、T3、…、Tn的位置的信息。这些位置的信息被利用在上述图5A的步骤a5、a9中的位置信息的分析、上述图5B的步骤a15、a19中的位置信息的分析、和上述图5C的步骤a25中的位置信息的分析。另外，根据实际的要求，也可以对索引信息追加文档图像的其他属性，例如文字图像的尺寸。

下面，对实施使用了索引信息的检索处理的检索部22进行说明。图18是表示检索部22的功能和检索处理的说明图。检索部22具有索引矩阵检索处理部22a、文字相关值保存部(保存部)22b、相关度计算部22c、显示顺序决定部(顺序决定部)22d、以及文档图像抽出部22e。

对于索引矩阵检索处理部22a，由关键词输入部24输入检索关键词。作为关键词输入部24，相当于上述的键盘1或图像扫描仪2等。

索引矩阵检索处理部22a是对索引信息DB17进行检索，而检索出包含所输入的检索关键词的索引矩阵的部分。索引矩阵检索处理部22a将检索关键词分割成单个文字，搜索包含各检索文字的索引矩阵，在包含检索文字的场合下，取得该检索文字在索引矩阵内的匹配位置的信息。另外，关于索引矩阵的抽出顺序例，将在下面采用图19的流程图来进行说明。

文字相关值保存部22b是保存由索引矩阵检索处理部22a取得的匹配位置的信息、和与该匹配位置的列编号相应的文字相关值的部分。

相关度计算部22c是在索引矩阵检索处理部22a中完成了对全部索引矩阵的检索时，计算出所检索出的索引矩阵与检索关键词之间的相关度的部分。

相关度的计算，是采用被保存在文字相关值保存部22b中的匹配位置和文字相关值的信息，并按照预先设定的相关度计算方法来进行计算的。关于相关度的计算，将在下面采用图20、图21来进行说明。

另外，这里，构成为文字相关值保存部22b保存匹配位置的信息、和与该匹配位置的列编号相应的文字相关值，但也可以构成为：文字相关值保存部22b只保存匹配位置，相关度计算部22c由匹配位置的信息取得文字相关值。

显示顺序决定部22d是基于由相关度计算部22c计算出的相关度的信息来决定显示顺序的部分。显示顺序决定部22d按如下方式决定显示顺序，即：从包含相关度高的索引矩阵的文档图像开始，依次在检索结果显示部25中显示文档图像的内容。

文档图像抽出部22e是，以按照由显示顺序决定部22d所决定的顺序显示文档图像的方式，从文档图像DB19中读出文档图像的图像数据，并输出到检索结果显示部25来进行显示。

检索结果显示部25按照显示顺序来显示文档图像。也可以采用缩略图显示等的方式。作为检索结果显示部25，相当于上述的显示装置3等。

这里，说明检索顺序。图19是表示检索部22中的检索顺序的流程图。当输入了由R个文字列构成的检索关键词，并指示进行检索时，索引矩阵检索处理部22a首先取出检索关键词的第1个检索文字(S11)。

然后，索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第1个检索文字的检索(S12)。

在完成了对全部索引矩阵的检索时，判断是否检索到第1个检索文字，在1个也没有检索到的场合下，转移到S19，在检索到的场合下进入S14。

在S14中，索引矩阵检索处理部22a将包含第1个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。

接着，索引矩阵检索处理部22a取出包含有第1个检索文字的全部的索引矩阵(S15)。然后，取出作为检索关键词的下一个文字的第2个检索文字，并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索(S16)。

在完成对在S15中取出的全部索引矩阵的检索时，判断是否检索到第2个检索文字(S17)。在1个也没有检索到的场合下，与上述同样地转移到S19，在检索到的场合下进入S18。

在S18中，索引矩阵检索处理部22a将包含有第2个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。

接下来，索引矩阵检索处理部22a再次返回到S16，取出作为检索关键词中的再下一个文字的第3个检索文字，并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索。

然后，在这里，也在完成检索时，索引矩阵检索处理部22a判断是否检索到第3个检索文字(S17)，在1个也没有检索到的场合下，转移到S19，在检索到的场合下，再次进入S18，进行关于检索关键词的再下一个检索文字的检索。

索引矩阵检索处理部22a，一直进行这样的S16～S18的处理，即以在S15中抽出的包含有第1个检索文字的索引矩阵为对象的、第2个以后的各检索文字的收缩检索，直到在S17中判断为1个也没有检索到、或完成了对检索关键词内的全部检索文字的检索为止，然后转移到S19。

在S19中，取出作为检索关键词中的下一个文字的第2个检索文字。然后，判断检索文字是否都已被检索，即，是否完成了对全部的检索文字的检索(S20)，在未完成的场合下，返回到S12。

然后，与上述同样，索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第2个检索文字的检索。在检索到的场合下，保存索引矩阵的匹配位置和文字相关值，然后进入S15，对包含有第2个检索文字的全部索引矩阵，针对检索关键词的下一个文字，即作为第2个之后的第3个以后的各检索文字，反复进行S16～S18，从而进行收缩检索。

索引矩阵检索处理部22a，对第3个以后的各检索文字依次进行如下处理，即：在S19中进行对一个检索文字的如上述的检索，并取出包含进行检索的检索文字的索引矩阵，且用其以后的检索文字来进行收缩检索。

然后，在由S19取出了检索关键词内的全部检索文字，并且由S20判断为完成了对全部检索文字的检索的场合下，进入S21。

在S21中，相关度计算部22c如后述那样根据相关度基准，来计算出检索关键词与各索引矩阵的相关度。

然后，显示顺序决定部22d以从包含相关度高的索引矩阵的文档图像开始进行显示的方式决定显示顺序，文档图像抽出部22e从文档图像DB19 中取得文档图像的图像数据，检索结果显示部25按相关度高的顺序来显示文档图像(S22)。

接下来，采用图20、图21，对相关度计算部22c中的根据相关度基准来计算索引矩阵与检索关键词的相关度计算方法进行说明。

在图20的参照符号101的方框中，记载有检索条件。而且，在参照符号102的方框中，记载有用于计算相关度的某个假设的检索关键词与索引矩阵的相对关系。在方框101所示的检索条件下，在检索关键词与索引矩阵为如方框102所示的相对关系的场合下，可以通过由方框103所示的计算式来计算出检索关键词与索引矩阵的相关度。

首先，对方框101的检索条件进行说明。检索关键词的文字数为R个，第1个检索文字为C1、第2个为C2、…、第R个为Cr。

成为检索对象的索引矩阵为M×N维矩阵。即，作为标题区域T而抽取出的文字列图像的文字数为M个，作为文字列的各文字的各候补而选择出的候补文字数为N个。

由于作为检索文字与各候补文字的相关值的文字相关值，是相应于索引矩阵的各位置来决定的，所以成为与索引矩阵相同维数的矩阵。即，文字相关值矩阵的权重为M×N维矩阵。例如，权重[i][j]表示位于索引矩阵中的位置[i，j](＝Index[i，j])上的候补文字匹配的场合下的文字相关值。在本实施方式中，如果索引矩阵的列编号[j]相同，则与行编号[i]无关，文字相关值相同。

行的相关度加权因数Q是在索引矩阵中相邻的2行中检索文字匹配的场合下，对这些2行的文字相关值附加的加权。在相邻的2行中检索文字匹配的场合下，包含检索关键词的连续的2个文字的可能性大。

在将行的相关度加权因数Q设定得高时，对于相关度计算部22c计算出的相关度的影响度，在连续匹配的2行的文字相关值中变大，但是在不相邻的各行的文字相关值中变小。即，通过将行的相关度加权因数Q设定得高，接近以词汇为单位进行检索的结果，反之，通过将行的相关度加权因数Q设定得小，接近以单字为单位进行检索的结果。

将检索文字C1匹配的文字相关值表示为W1，将检索文字C2匹配的文字相关值表示为W2，…，将检索文字Cr匹配的文字相关值表示为Wr。

接下来，对方框图102所示的为了计算相关度而假设的检索关键词与索引矩阵之间的相对关系进行说明。

检索关键词与索引矩阵之间具有全部的检索文字C1，C2，…，Cr与索引矩阵内的任意候补文字相匹配的关系。将检索文字C1，C2，…，Cr匹配的各候补文字在索引矩阵内的位置，即匹配位置表示为[C1i，C1j]、[C2i，C2j]，…，[Cri，Crj]。

而且，作为进一步的相对关系，具有方框102所示的式(1)的关系，即：

C(k+1)i＝Cki+1，C(m+1)i＝Cmi+1(m＞k)

在该式中，k、m表示构成检索关键词的各检索文字的相对位置。另外，C(k+1)i表示与检索关键词的第k+1个检索文字匹配的候补文字的索引矩阵内的行编号，Cki表示与检索关键词的第k个检索文字匹配的候补文字的索引矩阵内的行编号。

从而，C(k+1)i＝Cki+1表示与检索关键词的第k+1个检索文字匹配的候补文字在索引矩阵内的行编号，和在与检索关键词的第k个检索文字匹配的候补文字在索引矩阵内的行编号上加1的编号相同。换言之，C(k+1)i＝Cki+1表示检索关键词的第k+1个检索文字和第k个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。

C(m+1)i＝Cmi+1也同样，表示检索关键词的第m+1个检索文字和第m个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。

在检索关键词与索引矩阵具有这样的相对关系的场合下，可以通过方框103所示的式(2)来计算出检索关键词与索引矩阵的相关度。

SimDegree＝W1+W2+…+W(k-1)+Q*(Wk+W(k+1))+…

+W(m-1)+Q*(Wm+W(m+1))+…+Wr

在该式中，W1是第1个检索文字C1匹配的文字相关值，W2是第2个检索文字C2匹配的文字相关值，W(k-1)是第(k-1)个检索文字C(k-1)匹配的文字相关值。同样，W(k)是第k个检索文字Ck匹配的文字相关值，W(k+1)是第(k+1)个检索文字C(k+1)匹配的文字相关值。另外，W(m-1)是第(m-1)个检索文字C(m-1)匹配的文字相关值。同样，W(m)是第(m)个检索文字C(m)匹配的文字相关值，W(m+1)是第(m+1)个检索文字C(m+1)匹配的文字相关值，另外，最后的Wr是第r个的最后的检索文字C1匹配的文字相关值。

这样，在相关度的计算中，构成检索关键词的全部检索文字的文字相关值W被累加(累计)计算。

而且，在式(2)中的Q*(Wk+W(k+1))表示：由于检索关键词中的第k个检索文字Ck和第(k+1)个检索文字C(k+1)分别与索引矩阵中的相邻的2行相匹配，所以对文字相关值Wk和文字相关值W(k+1)乘以行的相关度加权因数Q。关于Q*(Wm+W(m+1))也同样。

另外，检索关键词的第k-1个检索文字与第k个检索文字，由于不具有与相邻的2行相匹配的关系，所以对W(k-1)和Wk双方不乘以相关度加权因数Q。关于W(m-1)和Wm也同样。

另外，由于图20的方框102所示的检索关键词与索引矩阵的相对关系中，具有全部的检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系，所以在式(2)中，将W1～Wr的全部的检索文字的文字相关值累计计算。

但是，这只是一例，例如，在虽然具有式(1)的相对关系，但检索文字C1和检索文字Cr不与索引矩阵内的任意候补文字相匹配的场合下，计算相关度的计算式为如下计算式，相应于累积项的减少，当然其相关度会降低。

SimDegree＝W2+…+W(k-1)+Q*(Wk+W(k+1))+…

+W(m-1)+Q*(Wm+W(m+1))+…+W(r-1)

另外，在具有全部检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系，并且，具有检索关键词的第k+1个检索文字和第k个检索文字、以及第k+2个检索文字和第k+1个检索文字分别与相邻的2行相匹配的关系的场合下，计算相关度的计算式为如下计算式。

SimDegree＝W1+W2+…+W(k-1)

+Q*(Wk+W(k+1)+W(k+2))…+WR

在该场合下，由于检索关键词的第k-1个检索文字和第k个检索文字不具有与相邻的2行相匹配的关系，所以对W(k-1)和Wk双方不乘以相关度加权因数Q。

下面，采用图21，对相关度计算的具体例进行说明。这里，求出图16所示的文字列“去神仙居住的地方”的索引矩阵(参照表100)与检索关键词“神仙”的相关度。

图21的方框104表示检索条件。相关值矩阵Weight是M×N维，文字相关值是Weight[i]＝[1，1-1/N，1-2/N，…，1/N](i＝0，1，…，M-1)，行的相关度加权因数Q。

检索关键词“神仙”分别被分割成第1个检索文字“神”和第2个检索文字“仙”，对于这两个字，分别在索引矩阵内的候补文字中进行检索。

参照图16的表100可看出，检索文字“神”与索引矩阵中的位置[i、j]的[2、2]相匹配，检索文字“仙”与索引矩阵中的[3、1]相匹配。

从而，如方框105所示，检索文字“神”的文字相关值为1，检索文字“仙”的文字相关值为1。

而且，检索文字“神”的行编号为[2]，检索文字“仙”的行编号为[3]，如图16的表100所示，这2个检索文字分别与索引矩阵中的相邻的2行相匹配。

从而，如方框106所示那样，对检索文字“神”的文字相关值(1-1/N)和检索文字“仙”的文字相关值1乘以行的相关度加权因数Q，检索关键词的“神仙”与文字列“去神仙居住的地方”的索引矩阵之间的相关度为SimDegree＝Q*((1-1/N)+1)。

检索关键词与索引矩阵之间的相关度，通过按照用户的要求灵活地调整相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数，可以获得更理想的检索结果。

用户可采用键盘1等，相应于需要而适当设定相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数。

而且，基于这样的图像特征的索引和匹配方式，可以满足多种语言的文档图像的索引和检索。不需要进行文字识别，计算量少。本发明不限于中文，可以应用于各种语言的文档图像。

接着，对具备词汇解析功能(语义分析功能)的检索处理进行说明。如图10所示那样，在本实施方式的文档图像处理装置10中，在关键词输入部24与检索部22之间，设有词汇解析部23。图22中表示具备词汇解析功能的检索处理。

词汇解析部23由语义分析处理部23a和语义词典23b构成。语义分析处理部23a，在从关键词输入部24输入检索关键词时，参照语义词典23b，对检索关键词的词汇进行分析。

例如，在作为检索关键词输入“中日关系”时，语义分析处理部23a作为与“中日关系”相关的单词，将例如“中国”、“日本”、“关系”这3个输入到检索部22。这些“中国”、“日本”、“关系”具有或的关系，检索式为“中国”或“日本”或“关系”。

将该检索式“中国”或“日本”或“关系”输入到检索部22，检索部22对索引信息DB17进行检索，抽出包含“中国”的文档图像、包含“日本”的文档图像、和包含“关系”的文档图像。

由此，不仅能够检索出直接包含所输入的检索关键词的文档图像，而且还能够检索出相关的文档图像。

接下来，对实施文档图像管理处理的文档图像管理部57进行说明。文档图像管理部57由文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54构成，下面对这些进行说明。

关于文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20的功能已进行了说明。在此，仅对为实施文档图像管理处理而进一步所需的功能进行适当说明，该文档图像管理处理中制作有意义的文档名并对文档图像特征DB20的文档图像进行管理。

采用图23说明文档图像管理处理。从由图像扫描仪2及数字摄影装置6构成的文档图像输入部21，输入文档图像1～N。

对于所输入的文档图像1～N，标题区域初始处理部18对各文档图像的内容进行分析，并抽取出标题区域获取文字列。接着，虽然未图示，但文字图像特征抽出部14与上述同样，将所抽取出的标题区域中包含的文字列的文字图像按单个文字进行分割，并抽出各文字图像的图像特征。

然后，以这样抽出的文字图像的图像特征为基础，由字形特征字典15及特征匹配部16构成的候补文字列生成部55，选择图像特征的匹配度高的文字图像作为候补文字，并制作成与所抽取出的标题区域中包含的文字列相应的候补文字列，而且采用词汇解析法来调整构成该候补文字列的各候补文字，并设为有意义的候补文字列。

更具体地说，候补文字列生成部55，以由文字图像特征抽出部14抽出的文字图像的图像特征为基础，从字形特征字典15中，以图像特征的匹配度从高到低的顺序选择出N个(N＞1的整数)文字图像作为候补文字，在上述文字列的文字数为M个(M＞1的整数)的场合下，制作成M×N维的索引矩阵。这就是上述的特征匹配部16的处理。

接下来，特征匹配部16，基于制作的索引矩阵，来制作将位于该索引矩阵中的第一列的各行的候补文字按顺序排列的候补文字列。然后，对构成该候补文字列的连续的各行的候补文字所构成的单词的词义进行解析，并调整各行的第一列的候补文字，从而使候补文字列带有意义。

图24是表示调整所制作的索引矩阵而使第一列的文字列成为具有意义的文字列，为此采用词汇解析法来进行调整的具体例的说明图。

图24的上部分所示的调整前的索引矩阵109，与图8所示的表100中示出的索引矩阵相同。在索引信息DB17中是以该状态储存的。由这样的索引矩阵109制作成的候补文字列为“去伸仙居任酌地方”，不具有意义。

用作有意义的文档名的候补文字列中，主语、谓语、以及宾语的连接词关系等必须在意义上正确。在此，利用词汇解析，变换成有意义的候补文字列。具体地说，对于两个或两个以上错误候补文字，使用概念词典，分析两个或两个以上错误候补文字与候补文本的其它单词之间的意义信息，而将候补文字列修改为有意义的文字列。

在词汇解析中采用的语言模型61，是通过对大规模语料库进行统计，并利用统计结果构建的语言模型。该大规模语料库含盖中文报纸、网页、及各类媒体中的相关数据。

例如，作为实例，可使用Bi-gram模型(语言模型)。Bi-gram是两个文字、两个音节、或者两个单词的群(group)，且作为文本的简单统计分析的基础被广泛使用。以符号序列来示出的场合下，将各符号的外观设为独立事项，并将上述符号序列的概率如下定义。

并且，在上述功能的分解中，可以使用概率的链锁律。将中文设为(N-1)阶马尔可夫链(符号的概率以N-1阶符号的前出为条件)。该语言模型被称为N-gram模型。

确立性的N-gram模型的使用，包含长期带来良好结果的统计上的自然语言处理。N-gram通常由采用文本大的整个文档(语料库)中的文字及单词的共起而得到的统计来构成，且规定文字连锁或单词连锁的确立。N-gram中，与通常直接从语料库中抽出的场合相比，具有能够覆盖非常大的语言的优点。在对语言模型的应用中，由于计算机的限制和没有限制的语言的特性(文字、单词无限量地存在)，所以将N设为N＝2，且设为Bi-gram模型。

图24的下部分表示调整后的索引矩阵110。第2行的第1列的“伸”作为错误候补文字，被置换成第2列的“神”。同样，第5行的第1列的“任”被置换成第3列的“住”。然后，第6行的第1列的“酌”，鉴于其前后的“居住”和“地方”之间的关联性而被认为是错误候补文字，并被置换成第2列的“的”。

这样的索引矩阵110的第1列中包含的候补文字列变为“去神仙居住的地方”，从而具有意义。并且，特征匹配部16，也可以将这样的调整后的索引矩阵110储存在索引信息DB17中。

再次，返回到图23，由候补文字列生成部55如上生成的有意义的候补文字列被送到文档名制作部51。

文档名制作部51，对所输入的文档图像，制作出包含有由候补文字列生成部55生成的有意义的候补文字列的文档名。以下，将包含有该有意义的候补文字列的文档名称为“有意义的文档名”。

从时间数据等发生部60向文档名制作部51，还输入表示文档图像被输入的时间及输入路径的数据等其它数据。文档名制作部51还可以采用至少包含从时间数据等发生部60输入的时间数据的其它数据，来生成文档名。

例如，也可以构成为：将时间数据等其它数据之中的时间数据包含在有意义的文档名中，且将有意义的文档名由时间数据和有意义的候补文字列来构成。

或者，也可以采用时间数据等其它数据，来对相同的文档图像制作另外的文档名。以下，将由时间数据等其它数据等构成的文档名称为原始的文档名。

通过这样构成，对一个文档图像，可以利用有意义的文档名、以及由时间数据等其它数据等构成的原始的文档名来进行管理。

对于每一个文档图像生成的有意义的文档名、以及原始的文档名，被送到文档图像DB管理部52，且在文档图像DB19中，与文档图像的图像数据相对应地进行储存。

文档图像DB管理部52，当用户采用由键盘1等构成的图10所示的指示输入部54，来输入文档图像DB19中所存储的文档图像的阅览指示等时，在由显示装置3等构成的图10的文档图像显示部53上，显示阅览画面。

图25中表示在文档图像显示部53上显示的、文档图像DB19中所储存的文档图像的阅览画面的一个例子。

图中，左侧所示画面201表示所存储的文档图像按原始的文档名列表表示的状态。在画面201的上面，示出了各文档图像的输入顺序。在纸面上最靠前的带有“AR-C262M_20060803_103140”的原始的文档名的文档图像，是在该画面中最先被输入的文档图像。“20060803”表示输入的日期(2006年8月3日)，“103140”表示时间(10点31分40秒)。

在这样的显示状态下，通过选择画面上所显示的“有意义的文档名”的标识符等的操作，阅览画面的显示在图中将转移到右侧所示的画面202。画面202表示所存储的文档图像按有意义的文档名列表表示的状态。

该画面202与画面201对应，在此，画面201的上部所示的、纸面上最靠前的带有“定格惠州西湖”的有意义的文档名的文档图像，是在该画面中最先被输入的文档图像。

这样，能够按有意义的文档名来进行阅览，由此用户可容易实施所存储的文档图像的管理及搜索。此外，一并制作出原始的文档名，由此可同时看到时间数据等信息与文档名。

另外，在该文档图像处理装置中，采用制作成的索引矩阵来制作索引信息，并用于检索处理中。因此，标题区域初始处理部18抽出文档图像中包含的两个或两个以上标题区域T，并制作各自的索引矩阵。然而，如果仅仅以对文档图像制作有意义的文档名为目的的话，则没有必要抽出文档图像中包含的两个或两个以上标题并制作各自的索引矩阵。

换言之，可以构成为：对于最能表示出文档图像的标题区域中包含的标题的文字列(文字图像列)，制作出索引矩阵，并基于此，使用特征匹配的文字列，来制作带有意义的名称。

作为最能表示出文档图像的标题区域，例如可以设为所抽出的两个或两个以上标题区域之中、存在于文档图像的最上面一行的区域。这是因为重要的标题很多场合下配置在文档图像的最上面一行。

此外，也可以将标题区域中包含的文字的大小设为比某个阈值大，且比所抽出的其它标题区域中的文字大。这是因为重要的标题很多场合下用比其它标题大的文字大小来记载。

或者，也可以将标题区域中包含的文字的字体(字形)类型，设为与所抽出的其它标题区域的文字不同的字体类型。这是因为重要的标题很多场合下用与其它标题不同的字体(字形)来记载。此外，也可以附加其他基准，并且各基准可以分别采用，也可以组合来采用。

此外，如该文档图像处理装置那样，在对于一个文档图像抽出两个或两个以上标题区域，并制作出各自的索引矩阵的构成中，通过标题区域的配置位置、文字大小、或字体，来选定最重要的标题区域的索引矩阵即可。此外，如果是这种场合，则特别优选为，从所抽出的两个或两个以上标题区域的索引矩阵中，制作出最频繁出现的单词包含在候补文字列中的索引矩阵。

最后，文档图像处理装置的各方框，特别是字体正规化处理部12、文字图像特征抽出部14、特征匹配部16、标题区域初始处理部18、检索部22、词汇解析部23、文档名制作部51、文档图像DB管理部52等也可以由硬件逻辑电路构成，也可以如下那样采用CPU由软件来实现。

即，文档图像处理装置10具有执行用于实现各功能的控制程序的命令的CPU(central processing unit)、储存有上述程序的ROM(read onlymemory)、展开上述程序的RAM(random access memory)、储存上述程序和各种数据的存储器等存储装置(记录媒体)等。而且，本发明的目的可通过如下过程来达到，即：将记录有计算机可读取的、实现上述的功能的软件即文档图像处理装置10的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录媒体，提供给上述文档图像处理装置，且由该计算机(或CPU、MPU)读出记录在记录媒体上的程序代码并执行。

作为上述的记录媒体，例如可以采用磁带或盒式磁带等的磁带类、包括软(注册商标)盘/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘的盘类、IC卡(包括存储卡)/光卡等的卡类、或掩模ROM/EPROM/EEPROM/闪存ROM等的半导体存储器类等。

另外，也可以将文档图像处理装置10构成为能够与通信网络连接，通过通信网络来供给上述程序代码。作为该通信网络，没有特别的限定，例如可以利用互联网、内部网、外联网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。另外，作为构成通信网络的传送媒体，没有特别的限定，例如既可以利用IEEE1394、USB、电力线输送、有线TV线路、电话线、ADSL线路等的有线，也可以利用IrDA、远程控制那样的红外线、Bluetooth(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字网等的无线。另外，本发明也能够以上述程序代码通过电子传送而具体化的被叠加在载波中的计算机数据信号的形式来实现。

本发明在不脱离其精神或主要特征的范围内，能够以其它各种形式实施。从而，上述的实施方式只不过是在所有方面上的一种示例，本发明的范围由本发明的权利要求书来表示，不受本说明书的任何限定。并且，在权利要求书范围内的变形和变更，均属于本发明的范围内。

Claims

1.一种文档图像处理装置，其特征在于，具有：

还包括：

文档图像特征数据库，其存储文字图像的特征；

字形特征字典，其存储有字形的特征；

字形样本数据库；

索引信息数据库，其存储索引信息；

2.根据权利要求1所述的文档图像处理装置，其特征在于，上述标题区域储存部对于文档图像中存在的两个以上标题区域，还储存文档图像中的标题区域的位置信息，

3.根据权利要求1所述的文档图像处理装置，其特征在于，上述顺序设定部在所输入的检索式中的检索关键词的个数是两个以上的情况下，对由上述标题区域抽出部抽出的标题区域，基于标题区域中所包含的检索关键词的个数来设定顺序。

4.根据权利要求1所述的文档图像处理装置，其特征在于，上述顺序设定部对由上述标题区域抽出部抽出的标题区域，基于与检索关键词的一部分或全部一致的文字列部分的文字数来设定顺序。

5.根据权利要求1所述的文档图像处理装置，其特征在于，上述顺序设定部对由上述标题区域抽出部抽出的标题区域，基于标题区域中所包含的文字图像的尺寸来设定顺序。

6.根据权利要求1或2所述的文档图像处理装置，其特征在于，上述顺序设定部根据所输入的顺序变更指令，对由上述标题区域抽出部抽出的标题区域，变更顺序的设定。

7.根据权利要求1或2所述的文档图像处理装置，其特征在于，上述显示部能够设定强调显示的显示状态。

8.根据权利要求1所述的文档图像处理装置，其特征在于，

上述标题区域储存部对于文档图像中的多个标题区域，还存储有文档图像中的标题区域的位置信息，

上述顺序设定部，在所输入的检索式中的检索关键词的个数是两个以上的情况下，对由上述标题区域抽出部抽出的标题区域，基于上述检索关键词的个数和文档图像中的标题区域的位置信息来设定顺序。

9.根据权利要求1所述的文档图像处理装置，其特征在于，

上述顺序设定部，对由上述标题区域抽出部抽出的标题区域，基于与检索关键词的一部分或全部一致的文字列部分的文字数和文档图像中的标题区域的位置信息来设定顺序。

10.根据权利要求1所述的文档图像处理装置，其特征在于，

上述顺序设定部，对由上述标题区域抽出部抽出的标题区域，基于标题区域中所包含的文字图像的尺寸和文档图像中的标题区域的位置信息来设定顺序。

11.一种文档图像处理方法，其特征在于，具有：

还包括：

将由上述标题区域初始处理步骤抽出的上述标题区域的图像分割为单个文字的文字图像之后，抽出各文字图像的特征，按每个文档图像存储在文档图像特征数据库中的文字图像特征抽出步骤；