CN101558425A - 图像处理设备、图像处理方法和计算机程序 - Google Patents

图像处理设备、图像处理方法和计算机程序 Download PDF

Info

Publication number
CN101558425A
CN101558425A CNA2008800010966A CN200880001096A CN101558425A CN 101558425 A CN101558425 A CN 101558425A CN A2008800010966 A CNA2008800010966 A CN A2008800010966A CN 200880001096 A CN200880001096 A CN 200880001096A CN 101558425 A CN101558425 A CN 101558425A
Authority
CN
China
Prior art keywords
character
picture
digital document
file
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008800010966A
Other languages
English (en)
Other versions
CN101558425B (zh
Inventor
榎本诚
金津知俊
金田北洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN101558425A publication Critical patent/CN101558425A/zh
Application granted granted Critical
Publication of CN101558425B publication Critical patent/CN101558425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

本发明通过对文档图像中的字符图像应用字符识别并以透明色在文档图像上绘制字符识别结果来生成数字文档。该数字文档在进行搜索时允许指定文档图像上与搜索关键词相对应的部分。当生成该数字文档时,该数字文档包括将多个字符类型通用的简单字符形状的字形数据(字体数据)用作在绘制字符识别结果时使用的字体数据所需要的描述。因此,即使当数字文档需要保存字体数据时,也可以使文件大小的增加最小化。此外,通过使用简单的字符形状进行绘制,可以减小字体数据自身的数据大小。

Description

图像处理设备、图像处理方法和计算机程序
技术领域
本发明涉及一种用于将纸文档的扫描图像转换成数字可搜索数据的技术。
背景技术
近年来,由于扫描器和硬盘等大容量存储装置已经普及,因此对已作为纸件而保存的文档进行扫描并将其保存为数字文档。在这种情况下,通过扫描纸文档而获得的图像数据经过字符识别处理以读取该文档中所记载的文本信息,并且将该文本信息与图像相关联地保存。用户可以使用搜索关键词搜索与文本信息相关联的数字文档。为了以这种方式从大量所保存的文档组中快速搜索期望文档,甚至对于扫描图像也允许关键词搜索是重要的。
例如,日本特开2000-322417号公报说明了以下技术。即,当用户使用搜索关键词搜索与文本信息相关联的数字文档时,突出显示(highlight)该文档图像上记载搜索关键词的文本部分以使用户可识别上述文本部分。由于突出显示了与搜索关键词相对应的文本部分,因此如果文档包括同一关键词的多个记载部分,则用户可以通过切换页图像高效地识别这些记载部分。
另一方面,还可以利用这样一种技术:该技术将字符识别处理的结果作为透明文本(利用透明色作为绘制色(renderingcolor)所指定的字符码)嵌入图像文件中并且将该图像文件以PDF(Portable Document Format,便携式文档格式)格式进行保存。在显示以这种方式生成的PDF文件时,在文档图像内的字符图像上绘制透明文本。因此,在进行关键词搜索时,发现透明文本,但用户不能看见透明文本自身,并且看起来像是发现了图像。这样,可以基于使用允许绘制图像和文本的页面描述语言所描述的格式的文件,来绘制使用搜索关键词可搜索的图像。
对使用PDF、SVG等页面描述语言的数字文档中的文本进行绘制需要各字符的字符形状信息,即字体数据的字形。然而,由于字体数据的大小通常较大,因此一般不将字体数据存储在数字文档中而仅指定数字文档中的字体类型。这样,应用程序可以使用个人计算机中所安装的字体来绘制文本数据。
另一方面,经常期望将字体数据存储在数字文档中。例如,当要通过其它个人计算机打开由文档生成应用程序所生成的数字文档时,如果该个人计算机中未安装该数字文档中所使用的字体数据,则不能正确地打开该数字文档。换言之,即使当未安装指定的字体数据的个人计算机或应用程序再现数字文档时,如果字体数据自身被存储在数字文档中,则可以正确地再现该数字文档。
在某些情况下,根据用途期望作为必要条件将用于绘制字符的字体数据存储在数字文档中。例如,对于要长期保存的文件,在经过了长时间之后默认安装的字体可能由于OS的变化而改变。因此,期望作为必须的格式存储字体数据。
对于一些格式,将字体数据存储在数字文档中是必要条件。例如,在XPS(XML纸张规范)格式中,在保存文本数据时需要一起保存字体数据。
然而,当将字体数据存储在数字文档中时,数字文档自身的大小增大。当文件大小增大时,经由网络发送数字文档需要大量时间,或者需要大的存储容易以存储该文档。
这样,在使用数字文档中所存储的字体数据绘制字符的文件格式的数字文档中,期望防止文件大小增大。特别地,当将扫描图像、作为字符识别结果的文本数据和用于绘制文本的字体数据一起存储在数字文档中时,期望防止文件大小增大。当由于格式、系统等的限制需要将字体数据存储在数字文档中时,文件大小的增大经常容易引起问题。
发明内容
根据本发明,通过提供一种图像处理设备解决了前述问题,所述图像处理设备包括:
字符识别单元,用于对文档图像中的多个字符图像执行字符识别处理,以获得与各字符图像相对应的字符码;以及
生成单元,用于生成数字文档,其中,所述数字文档包括所述文档图像、由所述字符识别单元所获得的多个字符码、以及字形数据,在绘制与所述多个字符码相对应的字符时所述多个字符码共用所述字形数据。
根据本发明,提供了另一种图像处理设备,包括:
字符识别单元,用于对文档图像中的多个字符图像执行字符识别处理,以获得与各字符图像相对应的字符码;以及
生成单元,用于生成数字文档,其中,所述数字文档包括所述文档图像、由所述字符识别单元所获得的多个字符码、以及在绘制与所述多个字符码相对应的字符时要使用的相同形状的字形数据。
根据本发明,提供了一种图像处理方法,包括:
控制字符识别单元以对文档图像中的多个字符图像执行字符识别处理,从而获得与各字符图像相对应的字符码;以及
控制生成单元以生成数字文档,其中,所述数字文档包括所述文档图像、在控制所述字符识别单元的步骤中获得的多个字符码、以及字形数据,当绘制与所述多个字符码相对应的字符时所述多个字符码共用所述字形数据。
根据本发明,提供了另一种图像处理方法,包括:
控制字符识别单元以对文档图像中的多个字符图像执行字符识别处理,从而获得与各字符图像相对应的字符码;以及
控制生成单元以生成数字文档,其中,所述数字文档包括所述文档图像、在控制所述字符识别单元的步骤中获得的多个字符码、以及在绘制与所述多个字符码相对应的字符时要使用的相同形状的字形数据。
根据本发明,提供了一种计算机可读存储介质,其存储用于使计算机执行以下步骤的计算机程序:
对文档图像中的多个字符图像执行字符识别处理以获得与各字符图像相对应的字符码;以及
生成数字文档,其中,所述数字文档包括所述文档图像、在执行所述字符识别处理的步骤中获得的多个字符码、以及字形数据,当绘制与所述多个字符码相对应的字符时所述多个字符码共用所述字形数据。
根据本发明,提供了另一种计算机可读存储介质,其存储用于使计算机执行以下步骤的计算机程序:
对文档图像中的多个字符图像执行字符识别处理以获得与各字符图像相对应的字符码;以及
生成数字文档,其中,所述数字文档包括所述文档图像、在执行所述字符识别处理的步骤中获得的多个字符码、以及在绘制与所述多个字符码相对应的字符时要使用的相同形状的字形数据。
通过以下参考附图对典型实施例的说明,本发明的其它特征将变得明显。
附图说明
图1是示出第一实施例的配置的示例的框图;
图2是示出第一实施例的数字文档生成处理的示例的流程图;
图3是示出第一实施例的数字文档搜索和浏览处理的示例的流程图;
图4是示出在图2的步骤S208中执行的数字文档数据生成处理的细节的流程图;
图5是示出在图3的步骤S306中执行的页绘制处理的细节的流程图;
图6示出根据第一实施例要生成的数字文档的示例;
图7示出要处理的页图像的示例;
图8示出区域分割处理结果的示例;
图9示出要生成的区域数据的示例;
图10示出当在执行字符识别处理时要提取字符图像时所执行的处理的示例;
图11示出基于字符识别结果而生成的字符码串数据的示例;
图12示出字符码串表的示例;
图13示出突出显示搜索结果的页的显示示例;
图14A和图14B示出通过其它突出显示处理而突出显示搜索结果的页的显示示例;
图15示出根据第二实施例所生成的数字文档的示例;
图16示出突出显示搜索结果的页的显示示例;
图17示出要处理的页图像的示例;以及
图18示出突出显示搜索结果的页的显示示例。
具体实施方式
现在将参考附图详细说明本发明的优选实施例。应当注意,除非另外特别说明,否则在这些实施例中陈述的组件的相对配置、数字表达式和数值并不限制本发明的范围。
第一实施例
图1是示出图像处理设备的配置的示例的框图。
图像处理设备100是用于实现本实施例的设备,并将文档图像数据转换成可搜索数字文档。图像处理设备100包括扫描器101、中央处理单元(CPU)102、存储器103、硬盘104、网络接口105和用户接口(UI)106。扫描器101扫描纸文档的纸面信息,并将该纸面信息转换成文档图像数据。CPU 102是执行分析图像数据并将该图像数据转换成可搜索数字文档所需要的计算机程序等的处理器。存储器103是保持程序和处理的中间数据并用作CPU的工作空间的存储介质。硬盘104是用于存储计算机程序和数字文档等数据的大容量存储介质。网络接口105是连接网络120所需要的接口,并用于将扫描图像、转换后的可搜索数字文档等的数据发送至外部设备,并从外部设备接收数据。用户接口106是用于从用户接收指令的接口,并且包含包括输入按键、触摸面板等的输入装置以及液晶显示器等的显示装置。注意,本发明的设备的配置不限于这种特定配置。
图像处理设备110可以搜索并浏览由图像处理设备100生成的数字文档。CPU 111执行进行搜索并浏览数字文档的处理所需要的计算机程序。存储器112是在执行程序时用作工作空间并临时保存数据的存储介质。硬盘113是用于存储计算机程序和数字文档等数据的大容量存储介质。网络接口114是用于从外部设备接收数字文档等的数据并将数据发送至外部设备的接口。用户接口115是用于从用户接收指令的接口,并包含包括输入按键、触摸面板等的输入装置以及液晶显示器等的显示装置。
以下将参考图2和图3所示的流程图来说明第一实施例的处理。
图2是示出当图像处理设备100基于通过例如扫描纸文档所获取的图像数据生成可搜索数字文档并将该数字文档发送至图像处理设备110时执行的处理的示例的流程图。
在步骤S201中,CPU 102根据用户的指令操作确定要生成的数字文档的发送目的地和发送方法。用户经由用户接口106发出指令。从电子邮件、使用FTP的文件传送等选项中选择发送方法。
当用户放置纸文档并按下开始按键时,在步骤S202中,CPU102使用扫描器101扫描所放置的纸文档以生成文档图像数据,并将该文档图像数据保存在存储器中。当使用自动文档给送器等输入包括多页的文档时,将各页转换成一页图像数据,并将转换后的页图像数据按它们的输入顺序存储在存储器103中。
图7示出页图像的示例。图7中的页图像701包括字符串“あいう”702和字符串“かきく”703以及照片704。注意,为了简便,将照片704简单表示为实体矩形,但实际上照片704是自然图像。在图7的示例中,页图像701仅包括字符串702和703以及照片704,但页图像701还可以包括图形区域等。图7的示例示出日语字符串702和703。然而,本发明不限于日语。例如,还可以类似地处理字母字符串(英语等)。图17示出包括字母字符串1702和1703的文档图像1701的示例。
作为页图像数据的格式,例如,当纸文档是彩色文档时,将页图像数据作为由R、G和B各8位来表现色调的彩色图像而进行处理。当纸文档是单色文档时,将页图像数据作为由8位来表现亮度的灰度图像或由1位来表现黑白的二值图像而进行处理。
在步骤S203中,CPU 102选择保存在存储器103中的并且尚未处理的页图像数据作为要处理的图像。如果存在多页的图像,则CPU 102根据输入顺序选择一页的图像作为要处理的图像。
在步骤S204中,CPU 102执行用于分析要处理的图像并识别文本区域、图形区域、照片区域和表区域等具有不同属性的区域的区域分析处理,以生成与各识别出的区域相关联的区域数据,并将该区域数据保存在存储器103中。注意,各区域数据包括该区域的外接矩形的左上位置坐标(x坐标和y坐标值)、表示外接矩形的大小(宽度和高度)的像素数的值以及所识别出的区域的类型。假定区域分析处理使用现有技术(还称为区域识别处理、区域判别处理和区域提取处理等)。例如,当使用在日本特开平6-68301号公报中公开的技术时,可以从二值文档图像数据中提取纵向或横向连接具有类似大小的黑色像素群的范围作为文本区域。
作为对图7所示的页图像701进行区域分析处理的结果,如图8所示,识别出文本区域801和照片区域802。图9示出通过该区域分析处理所获得的区域数据的示例。当包括字母字符串的图像(例如,图17中的图像1701)经过区域分析处理时,获得与图7的结果类似的区域分析结果。
在步骤S205中,CPU 102对通过区域分析处理所识别出的文本区域中的字符图像应用字符识别处理以获得字符码串的数据,并将所获得的数据保存在存储器103中。假定各字符码串的数据包括作为对于文本区域中所包括的各字符图像的识别结果的字符码信息以及该字符图像的外接矩形的信息(外接矩形的左上坐标以及宽度和高度的信息)。
以下将简要说明字符识别处理的示例。注意,用于将字符图像识别为字符的处理可以使用现有技术。
当文档图像不是二值图像时,通过例如对文本区域中的图像进行二值化来获得各文本区域中的二值图像。通过对各二值化后的文本区域中纵行和横行各自的黑色像素的数量进行计数而生成直方图。基于垂直和水平直方图,将周期直方图出现的方向定义为行方向,并将直方图的像素数变得等于或大于预定阈值的部分定义为形成字符行的部分,由此获得条纹状的行图像。对于各个行图像,沿与行方向垂直的方向计算直方图,并基于直方图的结果提取各字符的图像。该提取出的范围变为一个字符的外接矩形信息。在这种情况下,使用通过对黑色像素的数量进行计数所获得的直方图进行判断。可选地,可以使用表示各行是否包括黑色像素的投影来判断各字符区域。
从各字符图像的外接矩形中的图像中提取边缘成分等以获得特征矢量,并将所获得的特征矢量与预先登记的字符识别字典中的特征矢量进行比较,从而计算相似度。将具有最高相似度的字母类型(字符类型)的代码确定为与矩形中的字符图像相对应的字符码。这样,获得了通过将字符码分配至文本区域中所包括的字符的全部外接矩形所获得的数据。然后,从各文本区域所获得的字符码形成了字符码串。
对于英语字符区域,还判断在相邻字符之间是否存在单词间间隔(inter-word space)。例如,判断字符之间的距离是否大,并且通过在字符图像的字符识别结果的字符串与单词字典之间执行匹配来判断单词的不连续性。因此,可以判断是否存在单词间间隔。如果判断为存在单词间间隔,则将该间隔的字符码插入字符码串中。
图10和图11示出对图8所示的文本区域801进行字符识别处理的结果的示例。从图10中的文本区域1000提取字符行1001和1002。从字符行1001提取三个字符1011、1012和1013,并且这三个字符分别经过字符识别处理。结果,获得了与这些字符相对应的字符码,由此生成图11中的字符码串数据1101。同样,从字符行1002提取的三个字符1021、1022和1023经过字符识别处理,由此生成图11中的字符码串数据1102。
注意,上述说明是示例,并且可以使用利用其它已知的字符识别技术的处理方法来获取字符码串。图10和图11示出日语文本区域经过字符识别处理的情况。然而,本发明不限于日语。例如,包括其它语言(例如,英语等的字母)的文本区域类似地经过字符识别处理以获得字符码。
在步骤S206中,CPU 102将要处理的页图像数据、区域数据和字符码串数据相互关联地临时保存在存储器103中或硬盘104中。
在步骤S207中,CPU 102判断是否仍有要处理的图像数据。如果仍有要处理的图像数据,则处理返回步骤S203以处理下一个页图像数据。相反,处理进入步骤S208。
在步骤S208中,CPU 102将保存在存储器103或硬盘104中的全部页的数据按页顺序合成,以生成包括多页的可搜索数字文档。
在步骤S208中生成的数字文档的数据可以保持将各个页图像数字地显示在显示器等上或由打印机打印各个页图像所需要的绘制信息以及允许用户使用搜索关键词进行搜索的内容信息两者。作为满足这些条件的数据格式,可以利用PDF、SVG等。然而,在本实施例中,假定指定嵌入字体数据作为要生成的数字文档的格式。作为包括嵌入字体数据作为必要条件的格式,例如,已知XPS等。在使用XML表现的页面描述格式的规范的假定下,将给出以下说明。然而,本发明不限于这种特定格式。
图6示出当输入包括两页的页图像的文档时基于在本实施例的说明中所使用的页面描述格式的规范而生成的数字文档的页面描述示例。在本实施例中,作为页面描述格式的示例,如图6所示,在单个文件内一起进行了描述。然而,本发明不限于此。例如,可以使用以下格式(例如,XPS)。即,准备独立的字体数据文件并从主体文件参考该独立的字体数据文件,并且通过例如ZIP压缩等将这些文件组合成单个数字文档。
以下将参考图4的流程图来说明在步骤S208中执行的数字文档数据生成处理的示例。
在步骤S401中,CPU 102描述数字文档的开始标签。在本说明的页数据描述格式规范中,元素<Document>表示数字文档的开始标签。注意,由<Document>和表示<Document>的结束的</Document>所界定的范围内的XML描述对应于与该文档中所包括的各页相关联的描述数据。在图6的示例中,附图标记601表示数字文档的开始标签;并且附图标记612表示结束标签。
在步骤S402中,CPU 102指定与未描述的页的第一页相关联的数据并将该数据定义为要处理的数据。
在步骤S403中,CPU 102生成并描述表示要处理的页数据的开始的标签。在该示例中,元素标签<Page>表示页数据的开始,并且由<Page>和用作结束标签的</Page>所界定的范围内的XML描述与该页中的绘制数据和内容数据相对应。该<Page>标签使用表示页的像素宽度和高度的属性“Width”和“Height”以及表示分辨率的属性“Dpi”来描述页的物理大小,并且还使用表示页码的属性“Number”来描述页码。
在图6的描述示例中,<Page>元素的开始标签602描述了该页的宽度“Width”是“1680”,高度“Height”是“2376”,分辨率“Dpi”是“200”,并且页码“Number”是“1”。在直到结束标签606为止的范围(元素603~606)内描述第一页的数据。
在步骤S404中,CPU 102生成并描述表示形成页的数据中的图像的绘制数据的标签。
在本说明的页数据描述格式规范中,假定一个<Image>元素表示一个图像的绘制数据。此外,假定在属性“Data”中描述图像数据的内容,并且使用属性“X”、“Y”、“Width”和“Height”的坐标信息来描述该图像在页中的绘制位置。如果该页包括多个图像,则按出现顺序向上在多个行中描述各图像数据。注意,属性“Data”描述压缩图像数据格式的图像数据的内容。作为压缩方法,将JPEG压缩码串用于彩色或灰度图像,或者将MMF压缩码串用于二值图像。
图6中的元素603定义了将文档的第一页的扫描图像绘制在整个页上。图6中的元素603将图像的位置和大小描述为[X=“0”,Y=“0”,Width=“1680”,Height=“2376”]。此外,该元素将通过JPEG压缩图像所生成的码串的字符串描述为属性“Data”的值(为了附图简洁,在图6中部分省略了“Data”属性的字符串)。这样,描述了<Image>元素603。注意,在对扫描图像进行JPEG压缩和保存之前可以根据需要改变扫描图像的分辨率(例如,可以将以600dpi扫描所得的图像的分辨率改变为300dpi,并且可以保存该图像)。
在步骤S405中,CPU 102生成表示形成页的数据中的字符的绘制数据的描述。
在本说明的页面描述格式规范中,一个<Text>元素表示一行的字符的绘制数据。在<Text>元素中所描述的属性数据包括“Direction”、“X”、“Y”、“Font”、“Size”、“Color”、“String”、“CWidth”和“CGlyphId”等。注意,属性“Direction”表示字符串为纵向书写还是横向书写。属性“X”和“Y”指定字符开始位置的坐标。属性“Font”指定绘制字符码所需要的字体数据的ID。属性“Size”指定字体大小。属性“Color”指定在使用一组四个值即R分量值、G分量值、B分量值和表示透明度的阿尔法通道值(alphachannel value)进行绘制时的字符颜色。属性“String”指定字符串的内容(字符码串)。属性“CWidth”指定从“String”中的各字符到下一字符的字符间隔。属性“CGlyphId”指定在绘制“String”中的各字符时所使用的字符形状数据即字形的ID。注意,当未指定“Direction”时,将横向书写设置为默认。
作为形成各<Text>元素的字符码串,与字符行,即纵向或横向连接的字符集相对应地进一步分割并使用在图2的步骤S205中生成的字符码串的数据。
在图6的描述示例中,将两个<Text>元素604和605与第一页的字符绘制描述即对应于图11中的字符码串数据1101和1102的描述相关联。例如,在与包括图11中的数据1101的三个字符的横向书写的字符串“あいう”相对应的<Text>元素604中,指定了以下属性。
在属性“X”和“Y”中,将X=“236”和Y=“272”指定为三个字符的外接矩形的左上坐标。在属性“Direction”中,指定了表示横向书写的“Horizontal”。
在表示字体类型的属性“Font”中,指定了“Font01”。在表示字体大小的属性“Size”中,通过从字符行中的字符的高度进行类推指定了“97”个像素。在表示绘制时的字符颜色的属性“Color”中,指定了R分量值=G分量值=B分量值=0以及阿尔法通道=255(即,指定了透明色)。
在表示字符串的内容(与各字符相对应的字符码的串)的属性“String”中,指定了“0x2422,0x2424,0x2426”。在前述示例中,描述了在对图7所示的日语字符串进行字符识别时所获得的字符码。然而,在对图17所示的文档图像中的英语字符串进行字符识别时,描述了字母的字符码。在表示各字符的字符间隔的属性“CWidth”中,指定了最初两个字符的右相邻字符与左端之间的坐标差,以及与最末字符的自身字符宽度相对应的值,即“104,96,59”。
在属性“CGlyphId”中,通常指定了与各字符的字符形状数据相匹配的字形的ID。然而,在本实施例中,由于在扫描图像上绘制了透明字符的字符形状,因此不管字符形状如何用户都不从视觉上确认该字符形状。因此,在本实施例中,甚至对不同字符指定同一字形ID以减少字符形状数据(字体数据)。因此,在图6的示例中,在属性“CGlyphId”中描述了相同的属性值“0,0,0”。由该字形ID所指定的字符形状可以是简单的形状(例如,矩形)。注意,后面将说明该字形形状的细节。
注意,上述属性值仅是示例,并且可以使用具有相同含义的其它值来描述。例如,基于像素高度和图像分辨率,代替像素数可以使用点等的值来描述表示字体大小的属性“Size”。
在上述示例中,将各字符行的外接矩形的左上坐标位置指定为基准,并指定字体大小以与字符行的高度相匹配,从而对字符串进行绘制以将其大致覆盖在扫描图像上的字符图像的位置处。然而,本发明不限于此。特别地,由于对于在本实施例中要绘制的各字符都指定了透明色,并且用户看不见各字符,因此无需将要绘制的字符串正好覆盖在相应的字符图像上方。例如,可以在相应的字符图像的下端部分绘制透明字符串。例如,在图6的元素604的示例中,如果设置了X=“236”,Y=“368”以及Size=“10”,则在字符图像的下端绘制具有小的高度的透明字符串。此时,将要绘制的透明字符串的大小(高度)设置为比字符图像小的预定大小(例如,10)。
在稍后使用搜索关键词进行搜索时使用要绘制的透明字符串,并且突出显示与搜索关键词相匹配的字符串(例如,以不同的颜色显示该字符串)。由于在大致与相应的字符图像的位置相对应的位置处绘制透明字符串,因此尽管使用该透明字符串进行搜索,但对于用户而言看起来像是通过搜索发现了字符图像。因此,当在进行搜索时将透明字符串用于突出显示字符时,即使在相应的字符图像的下端处绘制该透明字符串,在搜索的情况下也如同加下划线那样,突出显示了相应的字符图像。因而,不会产生问题。透明字符串的绘制位置不限于下端。例如,可以进行描述以在各字符图像的下半位置或上半位置处绘制该透明字符串。
在步骤S406中,CPU 102描述表示页的结束的</Page>。
在步骤S407中,CPU 102判断是否仍有要描述的页。如果仍有要描述的页,则处理返回步骤S403以使下一页作为要处理的页图像。如果没有要描述的页,则处理进入步骤S408。
在图6的描述示例中,CPU 102对于第二页的图像执行步骤S404~S406中的处理,从而描述了元素607~610。
在步骤S408中,CPU 102描述字体数据的内容,该字体数据包括用于绘制该数字文档中的字符串的全部字形。
在本说明的页数据描述格式规范中,在由<Font>和</Font>所界定的范围内将字体数据中所包括的字形数据描述为<Glyph>元素。<Font>元素包括表示该字体的类型的属性“ID”。<Glyph>元素包括表示字形的类型的属性“ID”和表示与该ID相对应的字形(字符形状)的属性“Path”。注意,对属性“Path”进行描述以在以左下位置作为原点的1024×1024绘制矩形单位内使用直线或曲线函数来表现字形。
在图6的描述示例中,在<Font>元素611中,定义了Id=“Font01”的字体,并且在该元素中定义了字形Id=“0”的一类字形。表示该字形的字符形状的“Path”属性“M0,0V-1024 H1024V1024 f”描述了以下字形:该字形表示“移动到原点(0,0),向上绘制1024单位纵线,向右绘制1024单位横线,向下绘制1024单位纵线,并描画通过绘制从当前点至开始点的线所界定的范围”。即,该属性具有表现通过描画1024×1024矩形所获得的正方形字形的描述。
注意,对图6中的<Font>元素611的描述是示例,可以定义三角形、圆形和直线等其它简单的字符形状,并且可以将空白(间隔形状)定义为字符形状。
在步骤S409中,CPU 102描述表示数字文档的结束的</Document>,从而结束了数字文档的生成。将所生成的数字文档作为文件保存在图像处理设备100的存储器103或硬盘104中。在保存时,可以使用已知文本压缩技术对文件进行压缩。
返回参考图2,在步骤S209中,CPU 102利用在步骤S201中指定的发送方法将在步骤S208中生成的数字文档发送至在步骤S201中指定的发送目的地(例如,图像处理设备110)。数字传送处理自身使用现有技术,并且将不给出对其的说明。
作为发送目的地的图像处理设备110经由网络接口114接收传送来的数字文档,并将该数字文档存储在硬盘113中。数据接收处理使用现有技术,并将不给出对其的说明。
注意,任意识别信息(文件名等)可用于指定存储在设备的硬盘中的数字文档。例如,可以分配与接收时间相关联的字符串。另外,可以选择并自动分配不重叠的编号,或者用户可以在生成数字文档时指定这种信息。
以下将参考图3的流程图来说明用于搜索和浏览数字文档的处理的示例。下面将举例示出图像处理设备110进行搜索的情况。然而,本发明不限于此,并且可以将图像处理设备100设计成进行搜索。
在步骤S301中,用户从用户接口115输入可以包括在期望数字文档的文本中的搜索关键词,以便在存储在图像处理设备110中的数字文档组中搜索该数字文档的字符串。设k为输入字符串的长度。
在步骤S302中,CPU 111判断图像处理设备110的硬盘113中的全部数字文档文件是否包括要经过搜索处理的数字文档文件。如果包括这种数字文档文件,则CPU 111从这些数字文档文件中指定一个数字文档文件,并且如果该文件被压缩则对该数字文档文件进行解压缩。然后,处理进入步骤S303。如果不存在要经过搜索处理的数字文档,则处理进入步骤S312以向用户通知完成了对全部数字文档的搜索处理。
在步骤S303中,CPU 111执行用于搜索在步骤S302中所指定的数字文档中的文本数据的准备。在该步骤中,CPU 111将文档中的文本(字符码)排列成行,并对搜索开始位置n进行初始化,即设置n=0。
以下将说明在步骤S303中的处理示例。CPU 11使用XML分析程序(parser)分析数字文档数据,并在<Text>元素出现时获取在属性“String”中所描述的字符码串。CPU 111基于该“String”属性中所描述的字符码串,将各字符的字符码与该字符码值在数字文档中的描述位置的集合添加至字符码串表。该字符码值的描述位置是从数字文档数据的开头开始计数的字符数量,以便表示描述相应的字符码的字符串的开头位置。图12示出基于图6所示的数字文档而生成的字符码串表的示例。例如,从自该数字文档的开头开始计数的第1093个、第1100个和第1107个字符位置起,分别描述图6所示的数字文档中的<Text>元素604的属性“String”中所描述的3个字符码“0x2422”、“0x2424”和“0x2426”。同样,基于元素605和609计算其余6个字符码的描述位置以生成图12所示的字符码串表。在图12中,从0开始依次分配字符串编号(No.)。
在步骤S304中,CPU 111判断字符码串表中的各字符码是否与搜索关键词的字符码串相匹配从而以搜索开始位置n作为开始点。如果检测到与搜索关键词相匹配的部分,则CPU 111将此时的变量n设置为匹配字符串的开头位置,并且处理进入步骤S305。
如果在步骤S304中判断为没有发现匹配,则处理进入步骤S309以判断字符码串表中的全部字符是否经过了搜索处理。如果判断为完成了对字符码串表中所存储的全部字符码串的搜索处理,则处理进入步骤S311以通知完成了对作为要经过搜索处理的当前文档的数字文档的搜索处理。另一方面,如果判断为尚未完成对全部字符串的搜索处理,则处理进入步骤S310以使变量n增加1。然后,处理返回步骤S304以判断表中下一搜索开始位置n处的字符码串是否与搜索关键词相匹配。注意,设N为字符码串表中所存储的字符码的总数量,如果n<(N-k),则在步骤S309中判断为尚未完成对全部字符码串的搜索处理;如果n≥(N-k),则判断为完成了搜索处理。
例如,在通过从开头开始扫描搜索关键词“かき”的字符码串“0x242b”和“0x242d”而在图12的字符码串表中搜索与该搜索关键词相匹配的部分时,重复步骤S304、S309和S310中的处理以提取n=3作为第一匹配字符串的字符串编号。
在步骤S305中,CPU 111指定数字文档中与字符串编号n相对应的字符串数据所属的页。
例如,在分析数字文档数据时,如果确定了描述<Text>元素的<Page>元素,则CPU 111可以基于“Number”属性识别页码。因此,CPU 111从图12获得与在步骤S305中指定的位置n相对应的字符串的描述位置,并且通过检测之间存在该描述位置的<Page>元素来指定字符串所属的页。在步骤S303中分析数字文档数据时,当CPU 111确定了描述各<Text>元素的<Page>元素并将它们存储在图12中的字符码串表中时,可以基于字符串编号容易地指定页码。注意,步骤S304中对匹配字符串的检测方法和步骤S305中对页码的指定方法不限于前述示例。
在步骤S306中,CPU 111根据在步骤S305中所确定的页的绘制描述来绘制该页,并将该页显示在用户接口115上。此时,在绘制字符串编号(No.)落入n~n+k-1的范围内的字符时,CPU111以突出显示效果绘制这些字符从而允许用户容易地识别与该字符相对应的位置。以下将说明对与搜索关键词相匹配的部分给予突出显示效果的绘制的细节。
以下将参考图5的流程图来说明在步骤S306中执行的页绘制处理。
在步骤S501中,CPU 111基于与指定页码相对应的<Page>元素的“Width”和“Height”属性的值,将页图像的大小确定为绘制结果。
在步骤S502中,CPU 111确保可以存储页图像的像素信息的存储器。
在步骤S503中,CPU 111在<Page>元素的子元素中提取要处理的其中一个元素,并判断要处理的元素的类型。如果判断为要处理的元素是<Image>,则处理进入步骤S504;如果判断为要处理的元素是<Text>,则处理进入步骤S505。如果已经处理了<Page>元素的全部子元素,则处理进入步骤S517。
在步骤S504中,CPU 111提取作为<Image>元素的“Data”属性值而描述的压缩图像。此外,CPU 111对所提取出的图像进行缩放以适合页图像中由属性“X”、“Y”、“Width”和“Height”所表示的整个绘制矩形区域,并在步骤S502中所确保的页图像存储器的区域上重写该图像。之后,处理返回步骤S503。
在步骤S505中,CPU 111从要处理的<Text>元素中所描述的各属性中获取字符开始位置(X,Y)、字符字体ID(F)、字符大小(S)和字符颜色(C)。CPU 111还获取在该<Text>元素中所描述的字符的数量(N)。
在步骤S506中,CPU 111确保生成字形图像所需要的存储器。在该步骤中,假定CPU 111确保了1024×1024像素的二值图像存储器。
在步骤S507中,CPU 111将表示感兴趣字符的计数器i初始化为“1”。
在步骤S508中,CPU 111判断是否i>N。如果i≤N,则处理进入步骤S509;如果i>N,则CPU 111判断为完成了对该<Text>元素的处理,并且处理返回步骤S503。
在步骤S509中,CPU 111从<Text>元素的属性“String”中获取第i个字符的字符码(P),并从属性“CGlyphId”中获取第i个字符的字形ID(Q)。
在步骤S510中,CPU 111在数字文档中搜索具有字体ID=(F)的<Font>元素描述,并从该<Font>元素描述的子元素中具有字形ID=(Q)的<Glyph>元素获取“Path”属性。
在步骤S511中,CPU 111根据在步骤S510中获取的“Path”属性值,在步骤S506中确保的字形图像生成存储器上生成字形二值图像。注意,字形二值图像是例如将要绘制的部分表示为“1”并将不要绘制的部分表示为“0”的图像。注意,稍后以透明色来绘制要绘制的部分“1”。
在步骤S512中,CPU 111根据字符大小属性的值(S)对字形二值图像进行缩放以具有矩形大小。
在步骤S513中,CPU 111参考页图像存储器中的坐标位置(X,Y),在矩形区域上绘制在步骤S512中缩放后的字形二值图像。通过以下等式来定义在绘制要叠加在页图像上的二值图像时各像素的像素值。假定相对于对字形进行绘制之前的页图像的像素值(r,g,b),对字形进行绘制之后的各像素值变为(r′,g′,b′)。
与字形二值图像的像素值“0”相对应的像素:(r′,g′,b′)=(r,g,b)
与字形二值图像的像素值“1”相对应的像素:(r′,g′,b′)=(F(r,Cr),F(g,Cg),F(b,Cb))
其中,F(r,Cr)=(r×A+Cr×(255-A))/255,F(g,Cg)=(g×A+Cg×(255-A))/255,并且F(b,Cb)=(b×A+Cb×(255-A))/255。此外,A是字符颜色C的阿尔法通道值,并且Cr、Cg和Cb是字符颜色C的R、G和B值。当指定“255”作为阿尔法通道值时,由于该字形二值图像为透明的,因此即使对于与字形二值图像的像素值“1”相对应的像素也是(r′,g′,b′)=(r,g,b)。
在步骤S514中,CPU 111使用例如图12所示的字符码串表判断第i个感兴趣的字符是否是字符串编号(No.)落入n~n+k-1的范围内的字符。更具体地,由于可以从字符码串表检测到位于n~n+k-1的范围内的各字符的描述开始位置,因此基于第i个感兴趣的字符的开始位置是否与这些描述开始位置的其中一个相匹配来实现上述判断处理。如果第i个感兴趣的字符是字符串编号落入n~n+k-1的范围内的字符,则处理进入步骤S515;否则,处理进入步骤S516。
在步骤S515中,CPU 111执行用于表示感兴趣的字符落入作为搜索字符串而检测到的范围内的突出显示处理。更具体地,将矩形范围内的像素的像素值(r,g,b)改变为由以下等式给出的像素值(r′,g′,b′),其中该矩形范围与绘制了字符串的范围相对应并且该矩形范围从页图像存储器的位置(X,Y)开始:
(r′,g′,b′)=(G(r),G(g),G(b))
(其中,G(r)=255-r,G(g)=255-g,G(b)=255-b)
注意,反转颜色的突出显示处理是示例,并且可以使用其它类型的突出显示处理。例如,与字形二值图像的像素值为“0”的像素相对应的像素可以保持不变,并且可以将与字形二值图像的像素值为“1”的像素相对应的像素的像素值(r,g,b)改变为上面的(r′,g′,b′)。可选地,代替字形二值图像的宽度而使用指定字符的间隔宽度的属性“CWidth”的值作为要突出显示的矩形区域的宽度,可以无任何间隔地填充连续的搜索字符串。当使用字符的字符间隔执行突出显示处理时,如图16所示,还填充了字符之间的间隔。
在步骤S516中,CPU 111将第n个字符的字符间隔(“CWidth”属性的值)与X相加,并使n增加1(n=n+1)。然后,处理返回步骤S508。
在步骤S517中,CPU 111将一页的绘制结果即绘制了<Page>元素中的<Image>和<Text>元素描述的页图像存储器的内容传送至用户接口115的显示缓冲器,从而显示绘制结果。
以下将说明采用对图6所示的数字文档的第一页的绘制描述作为示例执行图5所示的流程图的处理的情况。
通过步骤S501中的处理,CPU 111基于图6中的第一页的<Page>元素的属性值Width=“1680”和Height=“2376”,将1680×2376像素确定为页的图像大小。
通过步骤S502中的处理,例如在由RGB 24位颜色表现页图像时,CPU 111确保了1680×2376×3字节的存储器。
通过步骤S 504中的处理,CPU 111从图6中的<Image>元素603的“Data”属性值中所描述的压缩码中提取图像,并在页图像存储器的整个区域上重写该图像。注意,在本示例中,由于图像数据大小为与原始页的大小相同的1680×2376像素,因此CPU111未应用缩放处理。
通过步骤S505中的处理,CPU 111从图6的<Text>元素604中获得X=“236”、Y=“272”、字符数量N=“3”、字符字体ID=“Font01”、字符大小=“97”以及字符颜色=“0,0,0,255”。
通过步骤S509中的处理,CPU 111首先获得<Text>元素的“String”属性的第一字符码=0x2422和GlyphId=“0”。
在步骤S511中生成字形二值图像之前,在步骤S510中,CPU111基于所获取的字符字体ID=“Font01”获取具有该ID的字形的“Path”数据。在图6的示例中,CPU 111获取<Font>元素611中所包括的<Glyph>元素中的Id=“0”的“Path”属性。在步骤S511中,CPU 111基于所获取的<Glyph>元素的Id=“0”的“Path”属性的数据而生成字形图像。更具体地,CPU 111根据“Path”属性的描述,通过利用“1”填充1024×1024像素的整个Glyph图像区域来生成图像。
由于在图6所示的数字文档中所描述的<Text>元素604和605中的字符的全部“GlyphId”值均为“0”,因此在步骤S511中生成的针对全部字符的字形图像彼此相等。因此,CPU 111可以将在步骤S511中生成的字形图像临时保存在存储器中,并且可以在绘制其它字符时使用临时保存的字形图像。
在步骤S512中,CPU 111基于字符大小=“97”将字形字符图像缩放为97×97像素。
在步骤S513中,从页图像上的位置(X,Y)=(236,272)开始的97×97像素的矩形范围用作由缩放后的字形字符图像要绘制的区域。在图6的示例中,由于字符颜色=“0,0,0,255”,即阿尔法通道值A=255,因此即使在字形二值图像中的相应像素值是“1”时也总是设置(r′,g′,b′)=(r,g,b)。即,在步骤S513的处理前后,页图像内的矩形区域中的像素值保持不变。
在步骤S514中,CPU 111基于字符码串表判断图6的<Text>元素604中的第一个字符是否是与字符串编号为n~n+k-1的范围相对应的字符。
在这种情况下,假定基于例如图6中的数字文档生成图12中的字符码串表,并且在图3的步骤S304中被判断为与关键词相匹配的字符码串编号的范围是3和4。此时,由于图6的<Text>元素604中的第一个字符码没有落入3和4的范围内,因此处理进入步骤S516。由于<Text>元素604中的第一个字符码描述的开始字符位置是1093,并且不与字符码串表中字符串编号为3和4的范围内的字符的描述位置的任意一个相匹配,因此可以判断为<Text>元素604的第一个字符不是与3和4的范围相对应的字符。
之后,在对图6中的<Text>元素605中的第一个字符执行处理时,在步骤S514中判断为第一个字符与字符码串表中3和4的范围内的字符的开始位置相匹配,并且在步骤S515中执行突出显示绘制处理。
对于该字符,在步骤S515中,CPU 111将从页图像存储器的位置(236,472)开始的92×92区域内的像素值(r,g,b)改变为(G(r),G(g),G(b))。
如上所述,在对全部<Text>元素进行了绘制之后,获得了图13所示的页图像。对于与在步骤S304中被判断为与关键词相匹配的范围内的字符相对应的区域,在各矩形内反转亮度值,并且在与其余字符相对应的区域中,由<Image>元素所绘制的图像数据保持不变。注意,在以上示例中已经说明了日语文档的情况。此外,对英语文档应用相同的处理。例如,当基于图17所示的图像执行图4所示的数字文档数据生成处理时,生成图6中的数字文档的元素604和605描述字母字符码的数字文档数据。在使用例如字符串“EF”对该数字文档数据进行搜索时,执行图5所示的绘制处理,并且如图18所示,突出显示与所发现的字符串相对应的矩形区域中的图像。
这样,由于突出显示了所发现的字符串,因此用户仅通过观察在步骤S 306中显示的页的图像就可以容易地判断搜索关键词在该页内的位置。
图14A和图14B示出表示在采用通过其它方法进行的突出显示设置时如何显示页图像的示例。图14A中的页绘制描述对如下内容进行了描述:在图4的步骤S405中描述<Text>元素的属性数据时,在与相应字符图像的下部(下端)相对应的位置处要绘制大小比各字符图像小(例如,Size=“10”)的透明字符。基于这种页绘制描述,当在步骤S 515的突出显示处理中要突出显示各字符的字符间隔×字符大小的矩形范围时,生成如图14B所示的突出显示的页图像。这样,由于加有下划线的所发现的部分看起来像是被突出显示,因此用户可以容易地判断所发现的字符串在该页中的位置。注意,图14A和图14B示出包括日语字符串的文档图像的示例,并且可以对包括英语(字母)字符串的文档图像应用相同处理。
返回参考图3,在步骤S 307中,CPU 111提示用户选择是结束搜索和浏览处理还是继续对其它搜索部分进行搜索。如果用户选择结束,则图3中的处理结束;如果他或她选择继续,则处理进入步骤S 308。
在步骤S308中,CPU 111设置n=n+k,并且处理返回步骤S304以搜索与搜索关键词相匹配的下一部分。
如上所述,根据本发明的第一实施例,在将纸文档转换成数字文档时,该数字文档包括以透明色在页图像上绘制从页提取出的字符所需要的描述。对于该数字文档,用户可以在确认均突出显示了与搜索关键词相匹配的部分的各页的同时进行搜索。
该数字文档包括一个简单的字符形状(例如,矩形)的字体数据,并且对该数字文档进行描述以使用简单的字符形状来绘制文档中各种字符类型的透明字符。即,一个字符形状通常用于多个字符类型。因此,即使当需要将数字文档中所使用的字体数据保存在该数字文档中时,也可以抑制数字文档的文件大小(数据大小)。
第二实施例
图15示出由第二实施例所生成的数字文档的示例。与第一实施例中相同,假定图像处理设备100生成并发送数字文档,并且图像处理设备110接收、浏览并搜索该数字文档。
图15中的附图标记1501和1512表示代表数字文档的开始和结束的描述。附图标记1502和1506表示代表对第一页进行绘制的开始和结束的描述。附图标记1503表示对第一页的图像数据绘制的描述。附图标记1504和1505表示对第一页的文本绘制的描述。附图标记1507和1510表示代表对第二页进行绘制的开始和结束的描述。附图标记1508表示对第二页的图像数据绘制的描述。附图标记1509表示对第二页的文本绘制的描述。附图标记1511表示对该数字文档中所使用的字体数据的描述。
由于对第二实施例的数字文档生成处理的说明与使用图2和图4对第一实施例的数字文档生成处理的说明几乎相同,并且对数字文档搜索和浏览处理的说明与使用图3和图5对第一实施例的数字文档搜索和浏览处理的说明几乎相同,因此将说明与第一实施例的不同之处。
图15中的表示文本绘制的<Text>元素1504、1505和1509没有描述指定各字符的字形ID的任何属性“CGlyphId”,并且代替字体数据1511的字形ID,使用属性“CString”中所编写的字符码自身。
在字体数据1511中所定义的6个字符类型的“Path”数据定义了同一字符形状。可以使用LZ77等已知的压缩技术以高的压缩率对以这种方式描述的字体数据进行压缩。
根据本发明的第二实施例,在将纸文档转换成数字文档时,数字文档包括以透明色在页图像上绘制从页提取出的字符所需要的描述。对于该数字文档,用户可以在确认均突出显示了与搜索关键词相匹配的部分的各页的同时进行搜索。
该数字文档保存由文档中所描述的各字符的相同类型的字符形状数据而构成的字体数据。由于可以利用一般的文本压缩技术以高的压缩率对由相同类型的字符形状数据所构成的字体数据进行压缩,因此第二实施例在保持数字文档中所使用的字体数据的同时还可以抑制该数字文档的数据大小。此外在第二实施例中,由于简化了由字形所描述的字符形状而进行保存,因此还可以抑制字符形状数据自身的数据大小。
第三实施例
前述实施例生成了如下数字文档:该数字文档在<Image>元素中描述了通过对扫描图像应用JPEG压缩等所获得的全页图像并且在<Text>元素中描述了透明文本。然而,本发明不限于这种特定文档。
例如,代替对整个扫描图像的JPEG压缩图像的描述,<Image>元素可以存储文本区域和图形区域的各颜色的MMR压缩的二值图像以及其余区域的JPEG压缩图像。作为分析文档图像中所包括的区域并自适应应用压缩处理的方法,例如,可以使用在日本特开平07-236062号公报和日本特开2002-077633号公报中说明的方法。将用于抑制在绘制本发明的透明文本时所使用的字体数据的数据大小的处理与这种图像压缩处理组合,从而生成具有较高压缩率的数字图像。
代替全页图像,可以仅将文本区域、图形区域、表区域和照片区域等的部分区域连同它们的位置数据一起保存。
第四实施例
在前述实施例中,通过反转图像的颜色(r,g,b)而突出显示与搜索结果相对应的部分。然而,本发明不限于要使用的这种颜色。例如,可以对用于指定搜索结果的预定颜色(例如,黄色)进行半透明(例如,阿尔法通道128)绘制。可选地,可以使用字符颜色(Cr,Cg,Cb)来确定突出显示颜色。
第五实施例
在前述实施例中,如参考图3和图5所述,在进行搜索时,从文档的开头开始依次搜索与关键词相匹配的字符串,并且突出显示首先发现的字符串。然后,如果用户输入“搜索下一个”的指令,则依次搜索与关键词相匹配的下一字符串,并且突出显示搜索结果。这样,在前述实施例中,从开头开始依次搜索与搜索关键词相匹配的字符串,并且每当命中搜索关键词时对搜索结果进行突出显示。然而,本发明不限于此。例如,可以将数字文档中所包括的全部字符串与搜索关键词进行比较,指定与该关键词相匹配的全部字符串,并且可以同时突出显示与关键词相匹配的全部这些字符串。
其它实施例
还可以通过向系统或设备提供存储有实现前述实施例的功能的软件的程序代码(计算机程序)的计算机可读存储介质来实现本发明的目的。此外,当系统或设备的计算机(或CPU或MPU)读出并执行该存储介质中所存储的程序代码时,实现了本发明的目的。
本发明的计算机程序使设备执行在前述流程图中所说明的各步骤。换言之,该计算机程序是用于使计算机用作与流程图的各步骤相对应的各处理单元(各处理部件)的程序。在这种情况下,从计算机可读存储介质读出的程序代码自身实现了前述实施例的功能,并且存储该程序代码的存储介质构成了本发明。
可以使用例如软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、非易失性存储卡和ROM等作为用于提供程序代码的存储介质。
本发明还包括以下情况:运行在计算上的OS(操作系统)等基于程序代码的指令执行一些或全部实际处理,从而实现前述实施例。
在上述第一实施例和第二实施例中,CPU与存储器、硬盘和显示装置等协作执行流程图的各步骤。本发明不限于前述配置,并且代替CPU,可以由专用电子电路构成使用流程图所说明的各步骤的一些或全部处理。
根据本发明,通过对文档图像中的字符图像应用字符识别并以透明色在文档图像上绘制字符识别结果而生成数字文档。这样,该数字文档在进行搜索时允许指定文档图像上与搜索关键词相对应的部分。当生成了该数字文档时,该数字文档包括将多个字符类型通用的简单字符形状的字体数据用作在绘制字符识别结果时使用的字体数据所需要的描述。因此,即使在数字文档需要保存字体数据时,也可以使文件大小的增加最小化。此外,通过使用简单的字符形状进行绘制,可以减小字体数据自身的数据大小。
使用相同的字符形状作为字体数据,还可以减小文件大小。
尽管已经参考典型实施例说明了本发明,但是应该理解,本发明不限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释,以包含所有这类修改、等同结构和功能。
本申请要求2007年6月29日提交的日本专利申请2007-172736号的优先权,在此通过引用包含其全部内容。

Claims (19)

1.一种图像处理设备,包括:
字符识别单元,用于对文档图像中的多个字符图像执行字符识别处理,以获得与各字符图像相对应的字符码;以及
生成单元,用于生成数字文档,其中,所述数字文档包括所述文档图像、由所述字符识别单元所获得的多个字符码、以及字形数据,在绘制与所述多个字符码相对应的字符时所述多个字符码共用所述字形数据。
2.根据权利要求1所述的图像处理设备,其特征在于,所述字形数据表示简单形状。
3.根据权利要求1所述的图像处理设备,其特征在于,所述字形数据表示矩形形状。
4.根据权利要求1所述的图像处理设备,其特征在于,所述字形数据表示空白字符形状。
5.根据权利要求1所述的图像处理设备,其特征在于,由所述生成单元所生成的所述数字文档包括以透明色在所述文档图像中与各字符图像相对应的位置处绘制与所述多个字符码相对应的字形数据所需要的描述。
6.根据权利要求1所述的图像处理设备,其特征在于,由所述生成单元所生成的所述数字文档包括以透明色在所述文档图像中与各字符图像的下端相对应的位置处绘制与所述多个字符码相对应的字形数据所需要的描述。
7.根据权利要求1所述的图像处理设备,其特征在于,由所述生成单元所生成的所述数字文档包括以透明色在所述文档图像中与各字符图像的下端相对应的位置处绘制与所述多个字符码相对应的字形数据从而使所述字形数据的大小小于所述文档图像中的各字符图像的大小所需要的描述。
8.根据权利要求1所述的图像处理设备,其特征在于,所述数字文档是以XML格式描述的数字文档。
9.根据权利要求1所述的图像处理设备,其特征在于,所述数字文档是以XPS格式描述的数字文档。
10.根据权利要求1所述的图像处理设备,其特征在于,还包括压缩单元,所述压缩单元用于压缩所述文档图像,
其中,所述数字文档中所存储的所述文档图像是已经经过所述压缩单元的压缩处理的文档图像。
11.根据权利要求10所述的图像处理设备,其特征在于,所述压缩单元分析所述文档图像中所包括的区域,并自适应地对所述区域进行压缩。
12.根据权利要求1所述的图像处理设备,其特征在于,还包括搜索单元,所述搜索单元用于使用所输入的关键词搜索所生成的数字文档,并突出显示与所述关键词相匹配的部分。
13.根据权利要求12所述的图像处理设备,其特征在于,所述搜索单元通过反转与所述关键词相匹配的所述部分的颜色来突出显示所述部分。
14.根据权利要求12所述的图像处理设备,其特征在于,所述搜索单元将对应于与匹配所述关键词的字符码相关联的各字符的字符间隔×大小的部分作为与所述关键词相匹配的部分而突出显示。
15.一种图像处理设备,包括:
字符识别单元,用于对文档图像中的多个字符图像执行字符识别处理,以获得与各字符图像相对应的字符码;以及
生成单元,用于生成数字文档,其中,所述数字文档包括所述文档图像、由所述字符识别单元所获得的多个字符码、以及在绘制与所述多个字符码相对应的字符时要使用的相同形状的字形数据。
16.一种图像处理方法,包括:
控制字符识别单元以对文档图像中的多个字符图像执行字符识别处理,从而获得与各字符图像相对应的字符码;以及
控制生成单元以生成数字文档,其中,所述数字文档包括所述文档图像、在控制所述字符识别单元的步骤中获得的多个字符码、以及字形数据,当绘制与所述多个字符码相对应的字符时所述多个字符码共用所述字形数据。
17.一种图像处理方法,包括:
控制字符识别单元以对文档图像中的多个字符图像执行字符识别处理,从而获得与各字符图像相对应的字符码;以及
控制生成单元以生成数字文档,其中,所述数字文档包括所述文档图像、在控制所述字符识别单元的步骤中获得的多个字符码、以及在绘制与所述多个字符码相对应的字符时要使用的相同形状的字形数据。
18.一种计算机可读存储介质,其存储用于使计算机执行以下步骤的计算机程序:
对文档图像中的多个字符图像执行字符识别处理以获得与各字符图像相对应的字符码;以及
生成数字文档,其中,所述数字文档包括所述文档图像、在执行所述字符识别处理的步骤中获得的多个字符码、以及字形数据,当绘制与所述多个字符码相对应的字符时所述多个字符码共用所述字形数据。
19.一种计算机可读存储介质,其存储用于使计算机执行以下步骤的计算机程序:
对文档图像中的多个字符图像执行字符识别处理以获得与各字符图像相对应的字符码;以及
生成数字文档,其中,所述数字文档包括所述文档图像、在执行所述字符识别处理的步骤中获得的多个字符码、以及在绘制与所述多个字符码相对应的字符时要使用的相同形状的字形数据。
CN2008800010966A 2007-06-29 2008-06-23 图像处理设备和图像处理方法 Active CN101558425B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP172736/2007 2007-06-29
JP2007172736A JP4402138B2 (ja) 2007-06-29 2007-06-29 画像処理装置、画像処理方法、コンピュータプログラム
PCT/JP2008/061788 WO2009005021A1 (en) 2007-06-29 2008-06-23 Image processing apparatus, image processing method, and computer program

Publications (2)

Publication Number Publication Date
CN101558425A true CN101558425A (zh) 2009-10-14
CN101558425B CN101558425B (zh) 2013-09-04

Family

ID=40226066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800010966A Active CN101558425B (zh) 2007-06-29 2008-06-23 图像处理设备和图像处理方法

Country Status (7)

Country Link
US (2) US8077971B2 (zh)
EP (2) EP2162859B1 (zh)
JP (1) JP4402138B2 (zh)
KR (1) KR101037458B1 (zh)
CN (1) CN101558425B (zh)
RU (1) RU2437152C2 (zh)
WO (1) WO2009005021A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186911A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 一种处理扫描书数据的方法及装置
CN106354450A (zh) * 2015-07-16 2017-01-25 富士施乐株式会社 通信系统、服务器装置、客户端装置以及通信方法
CN110100251A (zh) * 2016-12-30 2019-08-06 华为技术有限公司 用于处理文档的设备、方法和图形用户界面

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4402138B2 (ja) * 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
US10102583B2 (en) 2008-01-18 2018-10-16 Mitek Systems, Inc. System and methods for obtaining insurance offers using mobile image capture
US10685223B2 (en) 2008-01-18 2020-06-16 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
US9298979B2 (en) * 2008-01-18 2016-03-29 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
JP4600491B2 (ja) * 2008-02-26 2010-12-15 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
KR101380777B1 (ko) * 2008-08-22 2014-04-02 정태우 영상에 포함된 객체를 색인하는 방법
US8365072B2 (en) * 2009-01-02 2013-01-29 Apple Inc. Identification of compound graphic elements in an unstructured document
JP5274305B2 (ja) * 2009-02-27 2013-08-28 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5197464B2 (ja) * 2009-03-27 2013-05-15 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体
JP5451196B2 (ja) * 2009-06-12 2014-03-26 キヤノン株式会社 電子文書生成装置、電子文書生成方法
JP5528121B2 (ja) * 2010-01-05 2014-06-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US8687004B2 (en) * 2010-11-01 2014-04-01 Apple Inc. Font file with graphic images
JP5854813B2 (ja) * 2011-12-19 2016-02-09 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム。
US20130251261A1 (en) * 2012-03-23 2013-09-26 Marvell World Trade Ltd. Method And Apparatus For Image Data Compression
JP5783990B2 (ja) * 2012-11-20 2015-09-24 京セラドキュメントソリューションズ株式会社 画像処理装置、画像処理プログラム、画像処理方法
JP5971098B2 (ja) * 2012-12-03 2016-08-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
KR101445171B1 (ko) * 2014-03-28 2014-10-02 주식회사 한글과컴퓨터 종이 문서에 대한 전자 문서 변환 장치 및 방법
RU2604668C2 (ru) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Визуализация машинно-генерируемого изображения документа
US10062147B1 (en) * 2014-09-16 2018-08-28 American Megatrends, Inc. Scaling a fixed font used by a firmware interface
CN109275036B (zh) * 2018-07-25 2021-03-30 深圳市异度信息产业有限公司 一种用于教学直播的消息提醒方法、装置及设备

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP3376129B2 (ja) 1993-12-27 2003-02-10 キヤノン株式会社 画像処理装置及びその方法
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
DE19522394C2 (de) 1995-06-23 1997-04-17 Licentia Gmbh Verfahren und Vorrichtung zur Bestimmung der Teilung bei Schriften mit fester Teilung
JP3264619B2 (ja) * 1996-06-05 2002-03-11 キヤノン株式会社 画像処理装置および方法
JP3335844B2 (ja) 1996-08-16 2002-10-21 富士通株式会社 文字列方向推定方法および装置
JPH10162024A (ja) * 1996-11-29 1998-06-19 Canon Inc 電子ファイリング方法及び電子ファイリング装置
JPH10289226A (ja) 1997-02-17 1998-10-27 Just Syst Corp 文字処理装置, 文字処理システム, 文字処理方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6522330B2 (en) * 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
US6006226A (en) * 1997-09-24 1999-12-21 Ricoh Company Limited Method and system for document image feature extraction
JPH11232276A (ja) 1998-02-17 1999-08-27 Canon Inc 文字処理装置と文字データの処理方法、及び記憶媒体
JP4235286B2 (ja) * 1998-09-11 2009-03-11 キヤノン株式会社 表認識方法及び装置
JP2000322417A (ja) 1999-05-06 2000-11-24 Canon Inc 画像ファイリング装置及び方法及び記憶媒体
JP4454789B2 (ja) * 1999-05-13 2010-04-21 キヤノン株式会社 帳票分類方法及び装置
US6501475B1 (en) * 1999-10-22 2002-12-31 Dynalab Inc. Glyph-based outline font generation independent of resolution
JP4631133B2 (ja) * 2000-06-09 2011-02-16 コニカミノルタビジネステクノロジーズ株式会社 文字認識処理のための装置、方法及び記録媒体
US7133565B2 (en) * 2000-08-25 2006-11-07 Canon Kabushiki Kaisha Image processing apparatus and method
JP4366003B2 (ja) 2000-08-25 2009-11-18 キヤノン株式会社 画像処理装置及び画像処理方法
US6741745B2 (en) * 2000-12-18 2004-05-25 Xerox Corporation Method and apparatus for formatting OCR text
US7228501B2 (en) 2002-11-01 2007-06-05 Microsoft Corporation Method for selecting a font
JP4251629B2 (ja) * 2003-01-31 2009-04-08 キヤノン株式会社 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
US7391917B2 (en) * 2003-02-13 2008-06-24 Canon Kabushiki Kaisha Image processing method
JP4181892B2 (ja) * 2003-02-21 2008-11-19 キヤノン株式会社 画像処理方法
US7310769B1 (en) * 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
JP4235583B2 (ja) 2003-05-26 2009-03-11 株式会社リコー 画像処理装置、画像処理用プログラム及び記憶媒体
EP1555804A3 (en) * 2004-01-19 2006-08-16 Ricoh Company, Ltd. Image processing apparatus, image processing program and storage medium
JP2005259017A (ja) 2004-03-15 2005-09-22 Ricoh Co Ltd 画像処理装置、画像処理用プログラム及び記憶媒体
JP4423076B2 (ja) * 2004-03-22 2010-03-03 キヤノン株式会社 認識対象切出し装置および方法
JP2005275863A (ja) * 2004-03-25 2005-10-06 Murata Mach Ltd 複合機
JP4508100B2 (ja) 2005-12-21 2010-07-21 Tdk株式会社 超解像光記録媒体への情報記録方法及び情報記録装置
US7903266B2 (en) 2006-05-08 2011-03-08 Pitney Bowes Inc. System and method for using divided fonts to achieve proportional spacing
US7761783B2 (en) 2007-01-19 2010-07-20 Microsoft Corporation Document performance analysis
JP4590433B2 (ja) 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4402138B2 (ja) 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5376795B2 (ja) * 2007-12-12 2013-12-25 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラム及び記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186911A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 一种处理扫描书数据的方法及装置
CN106354450A (zh) * 2015-07-16 2017-01-25 富士施乐株式会社 通信系统、服务器装置、客户端装置以及通信方法
US10178268B2 (en) 2015-07-16 2019-01-08 Fuji Xerox Co., Ltd. Communication system, server device, client device, and non-transitory computer readable medium
CN106354450B (zh) * 2015-07-16 2019-06-07 富士施乐株式会社 通信系统以及通信方法
CN110100251A (zh) * 2016-12-30 2019-08-06 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
US11158057B2 (en) 2016-12-30 2021-10-26 Huawei Technologies Co., Ltd. Device, method, and graphical user interface for processing document

Also Published As

Publication number Publication date
EP2162859A4 (en) 2010-07-28
EP2400454B1 (en) 2013-08-21
EP2162859B1 (en) 2011-12-28
JP4402138B2 (ja) 2010-01-20
WO2009005021A1 (en) 2009-01-08
US20100239160A1 (en) 2010-09-23
RU2437152C2 (ru) 2011-12-20
EP2400454A1 (en) 2011-12-28
US8532388B2 (en) 2013-09-10
JP2009009526A (ja) 2009-01-15
US20120082388A1 (en) 2012-04-05
KR101037458B1 (ko) 2011-05-26
CN101558425B (zh) 2013-09-04
KR20090104071A (ko) 2009-10-05
US8077971B2 (en) 2011-12-13
RU2010102958A (ru) 2011-08-10
EP2162859A1 (en) 2010-03-17

Similar Documents

Publication Publication Date Title
CN101558425B (zh) 图像处理设备和图像处理方法
CN101689203B (zh) 图像处理设备和图像处理方法
EP2071493B1 (en) Image processing device, image processing method, and program and recording medium thereof
CN101820489B (zh) 图像处理设备及图像处理方法
EP2270714B1 (en) Image processing device and image processing method
US6351559B1 (en) User-enclosed region extraction from scanned document images
US20060104512A1 (en) Image processing apparatus, image processing method and image processing program
US8514462B2 (en) Processing document image including caption region
JP5197694B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US8295602B2 (en) Image processing apparatus and image processing method
JP4501731B2 (ja) 画像処理装置
JP4892600B2 (ja) 画像処理装置
JP2004287992A (ja) 文書情報処理装置並びにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant