CN1967567A - 自动创建索引的图像形成装置及其方法 - Google Patents

自动创建索引的图像形成装置及其方法 Download PDF

Info

Publication number
CN1967567A
CN1967567A CNA2006101494292A CN200610149429A CN1967567A CN 1967567 A CN1967567 A CN 1967567A CN A2006101494292 A CNA2006101494292 A CN A2006101494292A CN 200610149429 A CN200610149429 A CN 200610149429A CN 1967567 A CN1967567 A CN 1967567A
Authority
CN
China
Prior art keywords
index
text
page
symbol
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101494292A
Other languages
English (en)
Other versions
CN100517372C (zh
Inventor
玉炯洙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1967567A publication Critical patent/CN1967567A/zh
Application granted granted Critical
Publication of CN100517372C publication Critical patent/CN100517372C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03GELECTROGRAPHY; ELECTROPHOTOGRAPHY; MAGNETOGRAPHY
    • G03G15/00Apparatus for electrographic processes using a charge pattern

Abstract

一种能够自动创建索引的图像形成装置及其方法。该图像形成装置包括:扫描单元,用于扫描文档;文本/图像分离单元,用于将所扫描的文档分离为文本区域和图像区域,并用于将文本区域中的文本分离为符号;索引确定单元,用于提取所分离的符号的一个或多个特性,并用于将所提取的符号特性与一个或多个索引阈值进行比较,由此确定包括该符号的文本是否是索引对象;以及索引页创建单元,用于创建索引页,该索引页包括被确定为索引对象的文本以及关于包括对应于该索引对象的文本的页的信息。因此,由于索引页被自动地创建,文档每一页的主要内容可以被容易地选择和/或展示。而且,通过链接索引页与文档页中的原始内容,给搜索文档中的期望的内容带来了便利,从而提高了用户的便利性。

Description

自动创建索引的图像形成装置及其方法
技术领域
本发明涉及一种图像形成装置,以及一种在图像形成装置中自动创建索引的方法。更具体地讲,本发明涉及一种图像形成装置,其在复制多张文档页时,通过提取与其它一般文本不同的特殊文本作为索引来创建包括页信息的索引页,本发明还涉及一种自动创建该索引页的方法。
背景技术
一般,图像形成装置能够通过扫描放置在文档托盘上的文档页来复制文档的图像,并能够打印与该文档的复制图像相同的图像。典型地,图像形成装置可以包括扫描仪、复印机、打印机、传真机以及在其中组合了其它装置的功能的多功能外设(MFP)。
通常,图像形成装置扫描文档以便将读取的数据传输到外部设备,诸如主机设备或另一个图像形成装置。图像形成装置还能够在打印纸上打印出从外部设备接收的图像或自己扫描的图像。当文档有很多页时,图像形成装置仍以相同的方式处理该文档。
然而,当传统图像形成装置处理具有多页的文档时,为了确定传输到外部设备或打印的文档的内容,用户需要阅读整个文档。而且,可能需要用户使用主机设备或应用程序来手工创建索引页。在这种情况下,就需要一个在主机设备上运行的应用程序。并且,创建索引页所需的额外工作会给用户带来不便。
发明内容
因此,本发明提供了一种图像形成装置,其能够在复制多张文档页时,通过从文档页提取与一般文本不同的特殊文本作为索引对象来自动创建包括页信息的索引页,本发明还提供了相应的方法。
本发明的其它方面将在下面的说明中进行部分地阐述,并且将从说明中部分地变得明显,或可以通过对本发明的实践而学到。
本发明的前述和/或其它方面可以通过提供一种图像形成装置来实现,所述图像形成装置包括:扫描单元,用于扫描文档;文本/图像分离单元,用于将所扫描的文档分离为文本区域和图像区域,并用于将文本区域中的文本分离为符号;索引确定单元,用于提取所分离的符号的一个或多个特性(property),并用于将所提取的符号特性与一个或多个索引阈值进行比较,以确定包括该符号的文本是否是索引对象;以及索引页创建单元,用于创建索引页,该索引页包括被确定为索引对象的文本以及关于包括对应于所述索引对象的文本的页的信息。
所提取的符号特性可以包括符号宽度、符号高度以及笔划宽度中的一个或多个。
所述索引阈值可以是用于确定索引对象符号的参考值,包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个。所述索引阈值可以被设置为基于预先设置的符号特性的变化而计算的预先设置的符号特性的平均值,或者所述索引阈值可以由用户来设置。
索引确定单元可以在所提取的符号特性大于索引阈值时,将所述符号确定为索引对象符号、将索引对象符号分类为组、并将由索引对象符号的组形成的文本确定为索引对象。
索引页创建单元可以将所确定的索引对象链接到包括对应于该索引对象的文本的页。
本发明的前述和/或其它方面还可以通过提供一种图像形成装置来实现,所述图像形成装置包括:文本/图像分离单元,用于接收与具有一页或多页的文档相关的数据,并用于确定在所述一页或多页中的文本区域;索引确定单元,用于从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及索引页创建单元,用于创建包括所述一个或多个内容指示文本的文档的索引页。
本发明的前述和/或其它方面还可以通过提供一种图像形成装置来实现,所述图像形成装置包括:索引确定单元,用于在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及索引页创建单元,用于创建包括作为一般内容的内容指示符的特殊内容的索引。
本发明的前述和/或其它方面还可以通过提供一种在图像形成装置中自动创建索引的方法来实现,所述方法包括:扫描文档;将所扫描的文档分离为文本区域和图像区域,并将所述文本区域中的文本分离为符号;提取所分离的符号的一个或多个特性,并比较所提取的符号特性与一个或多个索引阈值以确定包括所述符号的文本是否是索引对象;以及创建索引页,该索引页包括被确定为索引对象的文本和关于包括对应于索引对象的文本的页的信息。
所提取的符号特性可以包括符号宽度、符号高度和笔划宽度中的一个或多个。
所述索引阈值可以是用于确定索引对象符号的参考值,包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个。所述索引阈值可以被设置为基于预先设置的符号特性的变化计算的预先设置的符号特性的平均值,或者所述索引阈值可以由用户来设置。
当所提取的符号特性大于索引阈值时,所述符号可以被确定为索引对象符号,所述索引对象符号可以被分类为组,并且由所述组形成的文本可以被确定为索引对象。
所述索引页的创建可以包括将所确定的索引对象链接到包括对应于所述索引对象的文本的页。
本发明的前述和/或其它方面还可以通过提供一种在图像形成装置中自动创建索引页的方法来实现,所述方法包括:接收与具有一页或多页的文档相关的数据,并确定在所述一页或多页中的文本区域;从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及自动生成包括所述一个或多个内容指示文本的文档的索引页。
本发明的前述和/或其它方面还可以通过提供一种在图像形成装置中自动创建索引页的方法来实现,所述方法包括:在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及自动生成包括作为一般内容的内容指示符的特殊内容的索引页。
本发明的前述和/或其它方面还可以通过提供一种含有可执行代码的计算机可读介质来实现,所述可执行代码用于执行在图像形成装置中自动创建索引页的方法的,所述介质包括:用于扫描文档的可执行代码;用于将所扫描的文档分离为文本区域和图像区域、并将所述文本区域中的文本分离为符号的可执行代码;用于提取所分离的符号的一个或多个特性、并比较所提取的符号特性与一个或多个索引阈值以确定包括所述符号的文本是否是索引对象的可执行代码;以及用于创建索引页的可执行代码,该索引页包括被确定为索引对象的文本和关于包括对应于索引对象的文本的页的信息。
附图说明
通过以下结合附图对实施例进行描述,本发明的这些和/或其它方面将变得清楚和更容易理解,其中:
图1是图示根据本发明的实施例的图像形成装置的框图;
图2是图示图1的图像形成装置的文本/图像分离单元的操作的视图;
图3是图示图1的图像形成装置的索引确定单元的操作的视图;
图4是图示图1的图像形成装置的索引页创建单元的视图;以及
图5是图示根据本发明的实施例,在图像形成装置中自动创建索引的方法的流程图。
具体实施方式
现在将详细参考本发明的实施例,其示例被图示在附图中,其中相同的参考标号总是指代相同的元件。以下描述实施例以便通过参考附图对本发明进行解释。
图1是图示根据本发明的实施例的图像形成装置的框图。
当复制多张文档页时,本实施例的图像形成装置从包括在每张文档页的文本区域中提取与一般文本不同的一个或多个特殊文本,并自动创建包括所提取的文本以及相应的页信息的索引页。由于文档的题目、标题或主要内容通常比一般文本要大,因此在特殊文本与一般文本之间的辨别可以基于特殊文本的尺寸来执行。特殊文本可以从文档中的每页提取,或者从文档中有题目、标题或主要内容的页提取。
参考图1,图像形成装置包括扫描单元110、文本/图像分离单元120、索引确定单元130、索引页创建单元140、存储单元150和控制单元160。
扫描单元110逐页扫描多张文档页。文本/图像分离单元120将扫描单元110扫描的文档划分为(1)包括字母、数字和记号的文本区域和(2)包括图片、照片和图表的图像区域。此外,文本/图像分离单元120还将文本区域的各个文本分离为符号(例如,字符)。
索引确定单元130提取由文本/图像分离单元120分离的各个符号的特性,并利用所提取的符号的特性确定索引对象符号。即,索引确定单元130将所提取的构成文档的主要内容、题目或标题的符号确定为索引对象符号。而且,索引确定单元130将所确定的在最小距离内的索引对象符号分类为组,并将分组的索引对象符号,即文本,确定为索引对象。这里,索引确定单元130将靠近的索引对象符号分组在一起,这样每组索引对象符号就构成了单个索引对象。
索引页创建单元140通过排列被索引确定单元130确定为索引对象的文本以及关于包括对应于索引对象的文本的页的信息来创建索引页。索引页创建单元140还将创建的索引页插入到文档中作为文档的第一页。这里,索引页创建单元140将索引页链接到文档中的其它原始页。例如,索引页创建单元140能够将索引页中的特定对象链接到文档中的特定标题或题目。
存储单元150存储由扫描单元110扫描的文档和由索引页创建单元140创建的索引页。
控制单元160控制文本/图像分离单元120、索引确定单元130和索引页创建单元140,以便基于所扫描的文档自动创建索引页。
图2是图示图1的图像形成装置的文本/图像分离单元120的操作的视图。
参考图1和2,将被复制的文档的第一页200包括文本区域210和图像区域220。
在扫描单元110扫描文档的第一页200之后,文本/图像分离单元120将所扫描的第一页200分离为文本区域210和图像区域220。
文本/图像分离单元120二进制化(binarize)所分离的文本区域210(即,通过转换为具有位于特定像素的点的二进制图像),并利用8邻域连通分量(8-neighborhood connected component)将二选制化的文本分离为各个符号。更具体地讲,文本/图像分离单元120确定在存在点的特定像素周围连通的8个像素中是否存在点,并将具有连通性的一个独立的个体分离为符号。换句话说,文本/图像分离单元120检查在文本区域210中具有点的特定像素的8个相邻像素,以便分离文本区域210的各个符号(例如,字符)。例如,文本/图像分离单元120将文本区域210中所示的“What”分别分离为字母“W”、“h”、“a”和“t”。
图3是图示图1的图像形成装置的索引确定单元130的操作的视图。
参考图1、2和3,“H”是从第一页200的文本区域210的第二段中的“How”中分离出的符号。
索引确定单元130提取该符号的特性,例如,符号宽度、符号高度和笔划宽度。更具体地讲,索引确定单元130通过从最大X轴坐标值(X_max)减去最小X轴坐标值(X_min)来提取符号宽度,并通过从最大Y轴坐标值(Y_max)减去最小Y轴坐标值(Y_min)来提取符号高度。而且,索引确定单元130确定在X轴方向上连续的像素中是否存在点,由此来提取最高出现频率(occurrence frequency)的点的数量作为笔划宽度。例如,在图3中,由于在符号“H”中由“笔划宽度”所指示的部分出现频率最高,因此索引确定单元130将该部分的宽度提取为笔划宽度。
此外,索引确定单元130分别将所提取的符号特性与预先设置的索引阈值Th进行比较。索引阈值Th是用于确定一个符号是否是索引对象符号的参考值,其包括符号宽度阈值、符号高度阈值和/或笔划宽度阈值。索引阈值Th可以是基于符号特性的变化而计算的符号特性的平均值,或者可以由用户来设置。索引阈值Th可以被预先设置。当所提取的符号特性之一等于或大于相应的预先设置的索引阈值时,索引确定单元130将该符号确定为索引对象符号。换句话说,如果符号足够大,索引确定单元130就将该符号确定为索引对象符号。
同样地,索引确定单元130针对所有符号来确定索引对象符号,基于接近度将被确定为索引对象符号的符号分成组,并将索引对象符号的组确认为索引的对象。这里,例如,索引确定单元130可以通过考虑索引对象符号之间的最小距离来进行分组。结果,文档第一页200的文本“How we got here”可以被确定为索引中的对象。
图4图示了根据本发明的实施例的索引页创建单元140的操作。
索引页创建单元140通过排列被索引确定单元130确定为索引中的对象的文本以及关于包括对应于该索引对象的文本的页信息的信息来创建索引页400。索引页创建单元140还将索引页400插入到文档中作为文档的第一页。或者,索引页400可以被插入到文档的其它部分(例如,题目页后的第二页、最后一页等)。在这个阶段,索引页创建单元140将索引页400链接到文档中的原始页,以便当用户从索引页400选择索引对象(例如,通过选择特定文本)时,文档中的相应原始页可以被选择和/或展现。
如图4所示,索引页400包括被确定为索引中的对象的文本以及包括对应于该索引对象的文本的页信息。在文档的第2页中,“Our ManagementPhilosophy”是被确定为索引中的第二个索引对象的文本。在文档的第3页中,“CEO message”是被确定为索引中的第三个对象的文本。
因此,使用所创建的索引页400可以容易地选择文档中每个原始页的主要内容。而且,由于索引页400被链接到原始页,因此能够便利对期望内容的搜索。
图5是图示根据本发明的实施例,在图像形成装置中自动创建索引的方法的流程图。例如,图5的方法可以由图1的图像形成装置来执行。因此,出于举例说明的目的,下面将参考图1到图5来描述图5的方法。
参考图5,扫描单元110逐页扫描文档(操作S510)。
文本/图像分离单元120将由扫描单元110扫描的文档分离为文本区域和图像区域(操作S520)。此外,文本/图像分离单元120将文本区域的文本分离为符号(操作S530)。
索引确定单元130提取由文本/图像分离单元120分离的符号的特性(操作S540)。此外,索引确定单元130确定每个提取的符号特性是否大于预先设置的索引阈值Th(操作S550)。这里,索引确定单元130分别比较所提取的符号特性与相应的索引阈值Th(例如,符号宽度阈值、符号高度阈值和笔划宽度阈值)。当所提取的任何一个符号特性大于相应的索引阈值时,索引确定单元130将该符号确定为索引对象符号。
当所提取的符号特性大于索引阈值时(操作S550-是),索引确定单元130临时存储该索引对象符号(操作S560)。索引确定单元130对临时存储的索引对象符号进行分组,由此从分组的符号形成文本对象。
控制单元160确定正在处理的页是否是文档的最后一页(操作S570)。当确定正在处理的页是文档的最后一页时(操作S570-是),控制单元160控制索引页创建单元140排列由索引确定单元130确定为索引中的对象的文本以及关于包括该文本对象的页的信息,由此来创建索引页(操作S580)。操作S520到S580可以在文档在操作S510被扫描期间或之后执行。
控制单元160可以控制图像形成装置,以使得由索引页创建单元140创建的索引页被打印输出在打印纸上或被输出到外部显示设备,从而展示给用户。
虽然本发明的实施例描述了在扫描文档时创建索引页,但是应当理解,本发明也可以在从外部设备接收文档时实施。例如,本发明可以应用到从外部设备接收的文档数据。
本发明的实施例可以实施为一种计算机可读记录介质上的计算机可读代码。所述计算机可读记录介质可以包括任何能够存储数据、且该数据随后可以被计算机系统读取的数据存储设备。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储设备和载波(诸如通过因特网的数据传输)。计算机可读记录介质还能够分布在与计算机系统相连接的网络上,从而以分布式方式存储和执行计算机可读代码。本发明的实施例还可以以硬件或硬件与软件的组合来实现。
根据对本发明实施例的上述说明,由于索引页被自动创建,因此文档的原始页的主要内容可以被容易地选择和/或展示。而且,通过在索引页与原始页的内容之间的链接,给搜索期望的内容带来了便利,从而提高了用户的便利性。
虽然示出和描述了本发明的一些实施例,但是本领域的技术人员应当理解,在不脱离本发明的原理和精神的情况下,可以对这些实施例进行改变,而本发明的范围由所附权利要求书及其等效物来定义。

Claims (45)

1.一种图像形成装置,包括:
扫描单元,用于扫描文档;
文本/图像分离单元,用于将所扫描的文档分离为文本区域和图像区域,并用于将文本区域中的文本分离为符号;
索引确定单元,用于提取所分离的符号的一个或多个特性,并用于将所提取的符号特性与一个或多个索引阈值进行比较,由此确定包括所述符号的文本是否是索引对象;以及
索引页创建单元,用于创建索引页,该索引页包括被确定为索引对象的文本以及关于包括该文本的页的信息。
2.权利要求1的图像形成装置,其中所述提取的符号特性包括符号宽度、符号高度和笔划宽度中的一个或多个。
3.权利要求1的图像形成装置,其中所述索引阈值是用于确定索引对象符号的参考值,该索引阈值包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个,并且所述索引阈值被设置为基于预先设置的符号特性的变化而计算的预先设置的符号特性的平均值,或者所述索引阈值由用户来设置。
4.权利要求1的图像形成装置,其中所述索引确定单元在所提取的符号特性大于所述索引阈值时,将所述符号确定为索引对象符号、对所述索引对象符号进行分组、并将包括所述索引对象符号的组的文本确定为索引中的对象。
5.权利要求1的图像形成装置,其中所述索引页创建单元将所确定的索引对象链接到包括对应于所述索引对象的文本的页。
6.一种图像形成装置,包括:
文本/图像分离单元,用于接收与具有一页或多页的文档相关的数据,并用于确定在所述一页或多页中的文本区域;
索引确定单元,用于从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及
索引页创建单元,用于创建包括所述一个或多个内容指示文本的文档的索引页。
7.权利要求6的图像形成装置,还包括:
打印单元,用于打印具有一页或多页的文档以及由所述索引页创建单元创建的索引页。
8.权利要求6的图像形成装置,其中所述文本/图像分离单元将具有图像、图片或图表的区域分离为图像区域,并将具有字母、数字或符号的区域分离为文本区域。
9.权利要求6的图像形成装置,其中所述文本/图像分离单元对所述文本区域进行二进制化,并分离所述文本区域中的每一个符号,并且将分离的符号提供给索引确定单元。
10.权利要求9的图像形成装置,其中所述文本/图像分离单元通过检查每个像素点和相邻的像素来分离所述文本区域中的每个符号。
11.权利要求6的图像形成装置,其中所述索引确定单元基于文本尺寸比较来确定一个或多个内容指示文本。
12.权利要求6的图像形成装置,其中所述索引确定单元基于对所述文本区域中的字符的尺寸和预定尺寸阈值的比较、通过选择内容指示文本的字符来确定内容指示文本,并基于相互之间的相对接近度来将所选择的字符分组在一起。
13.权利要求6的图像形成装置,其中所述索引确定单元从所述文本/图像分离单元接收文本区域的分离的符号,并将所分离的符号与一个或多个预定尺寸参数进行比较,以确定所述分离的符号是否是内容指示符号。
14.权利要求13的图像形成装置,其中所述索引确定单元将相邻的内容指示符号分组在一起,并将分组的内容指示符号确定为索引页的内容指示文本。
15.权利要求13的图像形成装置,其中所述一个或多个预定尺寸参数包括所分离的符号的笔划宽度、所分离的符号的符号宽度以及所分离的符号的符号高度。
16.权利要求13的图像形成装置,还包括:
存储单元,用于存储由索引确定单元确定的每个内容指示符号,以便索引页创建单元访问该存储单元以创建索引页。
17.权利要求6的图像形成装置,其中所述索引页创建单元创建包括内容指示文本的索引页,所述内容指示文本与包括该内容指示文本的文档页的页指示符相关联。
18.权利要求6的图像形成装置,其中所述索引页创建单元将所述索引页添加到所述文档。
19.权利要求6的图像形成装置,其中所述索引页创建单元将索引页中的内容指示文本链接到与该内容指示文本相关联的页。
20.一种图像形成装置,包括:
索引确定单元,用于在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及
索引页创建单元,用于创建包括作为一般内容的内容指示符的特殊内容的索引。
21.权利要求20的图像形成装置,其中所述特殊文本包括标题和题目之一。
22.权利要求20的图像形成装置,其中所述索引包括特殊文本和文档的相应页码。
23.一种在图像形成装置中自动创建索引的方法,所述方法包括:
扫描文档;
将所扫描的文档分离为文本区域和图像区域,并将文本区域中的文本分离为符号;
提取所分离的符号的一个或多个特性,并将所提取的符号特性与一个或多个索引阈值进行比较,以确定包括所述符号的文本是否是索引对象;以及
创建索引页,该索引页包括被确定为索引对象的文本以及关于包括对应于该索引对象的文本的页的信息。
24.权利要求23的方法,其中所述所提取的符号特性包括符号宽度、符号高度和笔划宽度中的一个或多个。
25.权利要求23的方法,其中所述索引阈值包括用于确定索引对象符号的参考值,其包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个,并且所述索引阈值被设置为基于预先设置的符号特性的变化而计算的预先设置的符号特性的平均值,或者所述索引阈值由用户来设置。
26.权利要求23的方法,其中在所提取的符号特性大于所述索引阈值时,所述符号被确定为索引对象符号,所述索引对象符号被分组,并且包括所述索引对象符号的组的文本被确定为索引中的对象。
27.权利要求23的方法,其中创建索引页包括将所确定的索引对象链接到包括对应于所述索引对象的文本的页。
28.一种在图像形成装置中自动生成索引页的方法,所述方法包括:
接收与具有一页或多页的文档相关的数据,并确定在所述一页或多页中的文本区域;
从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及
自动生成包括所述一个或多个内容指示文本的文档的索引页。
29.权利要求28的方法,还包括:
打印所述具有一页或多页的文档以及所生成的索引页。
30.权利要求28的方法,其中确定在所述一页或多页中的文本区域包括将具有图像、图片或图表的区域分离为图像区域,并将具有字母、数字或符号的区域分离为文本区域。
31.权利要求28的方法,其中确定在所述一页或多页中的文本区域包括对所述文本区域进行二进制化,并分离所述文本区域中的每一个符号。
32.权利要求31的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括通过检查每个像素点以及相邻的像素来分离文本区域中的每个符号。
33.权利要求28的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括基于文本尺寸比较来确定一个或多个内容指示文本。
34.权利要求28的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括:
基于对所述文本区域中的字符的尺寸与预定尺寸阈值的比较,通过选择内容指示文本的字符来确定内容指示文本;以及
基于相互之间的相对接近度来将所选择的字符分组在一起。
35.权利要求28的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括:
接收文本区域的分离的符号;以及
将所分离的符号与一个或多个预定尺寸参数进行比较,以确定所述分离的符号是否是内容指示符号。
36.权利要求35的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本还包括:
将相邻的内容指示符号分组在一起;以及
将分组的内容指示符号确定为索引页的内容指示文本。
37.权利要求35的方法,其中所述一个或多个预定尺寸参数包括所分离的符号的笔划宽度、所分离的符号的符号宽度以及所分离的符号的符号高度。
38.权利要求35的方法,还包括:
存储每个所确定的内容指示符号,以便索引页生成操作访问所存储的内容指示符号以自动生成索引页。
39.权利要求28的方法,其中生成包括一个或多个内容指示文本的文档的索引页包括生成包括内容指示文本的索引页,所述内容指示文本与包括该内容指示文本的文档页的页指示符相关联。
40.权利要求28的方法,还包括
将所生成的索引页添加到所述文档。
41.权利要求28的方法,还包括:
将索引页中的内容指示文本链接到与该内容指示文本相关联的页。
42.一种在图像形成装置中自动创建索引页的方法,所述方法包括:
在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及
自动生成索引页,该索引页包括作为一般内容的内容指示符的特殊内容。
43.权利要求42的方法,还包括:
将所述索引页插入到所述文档;以及
展示包括所述索引的文档。
44.权利要求43的方法,其中展示所述文档包括以下一个或多个步骤:
在显示单元上显示该文档;以及
使用图像形成单元打印该文档。
45.一种计算机可读介质,含有用于执行在图像形成装置中自动创建索引的方法的可执行代码,所述介质包括:
用于扫描文档的可执行代码;
用于将所扫描的文档分离为文本区域和图像区域、并将文本区域中的文本分离为符号的可执行代码;
用于提取所分离的符号的一个或多个特性、并将所提取的符号特性与一个或多个索引阈值进行比较以确定包括所述符号的文本是否是索引对象的可执行代码;以及
用于创建索引页的可执行代码,该索引页包括被确定为索引对象的文本和关于包括对应于该索引对象的文本的页的信息。
CNB2006101494292A 2005-11-18 2006-11-20 自动创建索引的图像形成装置及其方法 Expired - Fee Related CN100517372C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050110952A KR100664311B1 (ko) 2005-11-18 2005-11-18 자동 인덱스 생성이 가능한 화상형성장치 및 그 자동인덱스 생성방법
KR110952/05 2005-11-18

Publications (2)

Publication Number Publication Date
CN1967567A true CN1967567A (zh) 2007-05-23
CN100517372C CN100517372C (zh) 2009-07-22

Family

ID=37866827

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101494292A Expired - Fee Related CN100517372C (zh) 2005-11-18 2006-11-20 自动创建索引的图像形成装置及其方法

Country Status (3)

Country Link
US (2) US7860316B2 (zh)
KR (1) KR100664311B1 (zh)
CN (1) CN100517372C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377255A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 索引文章的创建方法和装置
CN104871122A (zh) * 2013-01-21 2015-08-26 富士施乐株式会社 显示控制设备和程序
CN106515258A (zh) * 2016-11-10 2017-03-22 深圳市科迈爱康科技有限公司 笔记本、智能终端及笔记本内容索引创建方法
WO2019041526A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN114138214A (zh) * 2022-01-27 2022-03-04 北京辰光融信技术有限公司 一种自动生成打印文件的方法、装置和电子设备

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
KR100664311B1 (ko) * 2005-11-18 2007-01-04 삼성전자주식회사 자동 인덱스 생성이 가능한 화상형성장치 및 그 자동인덱스 생성방법
US8782551B1 (en) 2006-10-04 2014-07-15 Google Inc. Adjusting margins in book page images
US7912829B1 (en) 2006-10-04 2011-03-22 Google Inc. Content reference page
US7979785B1 (en) * 2006-10-04 2011-07-12 Google Inc. Recognizing table of contents in an image sequence
KR101248907B1 (ko) 2007-07-13 2013-03-28 삼성전자주식회사 화상형성장치 및 그의 색상 테이블 생성 방법과 칼라 문서출력 방법
JP2009033530A (ja) * 2007-07-27 2009-02-12 Kyocera Mita Corp 画像形成装置
JP5412916B2 (ja) * 2009-03-27 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
KR101103029B1 (ko) * 2009-05-22 2012-01-06 김철회 인덱스 인식에 따라 데이터를 추출하는 시스템 및 그 운용방법
JP5663866B2 (ja) * 2009-08-20 2015-02-04 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5073773B2 (ja) * 2010-04-08 2012-11-14 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法及びプログラム
US8875007B2 (en) * 2010-11-08 2014-10-28 Microsoft Corporation Creating and modifying an image wiki page
KR20130113218A (ko) * 2012-04-05 2013-10-15 강신태 전자노트 기능을 갖는 시스템 및 그 운용방법
KR20140081470A (ko) * 2012-12-21 2014-07-01 삼성전자주식회사 문자 확대 표시 방법, 상기 방법이 적용되는 장치, 및 상기 방법을 수행하는 프로그램을 저장하는 컴퓨터로 읽을 수 있는 저장 매체
US9547630B2 (en) * 2014-04-08 2017-01-17 International Business Machines Corporation Identification of multimedia content in paginated data using metadata
US9454696B2 (en) 2014-04-17 2016-09-27 Xerox Corporation Dynamically generating table of contents for printable or scanned content
US10176175B2 (en) 2015-08-19 2019-01-08 International Business Machines Corporation System and method for identifying candidates for back-of-book index
US20190384838A1 (en) * 2018-06-19 2019-12-19 Microsoft Technology Licensing, Llc Method, apparatus and computer program for processing digital items

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5048113A (en) * 1989-02-23 1991-09-10 Ricoh Company, Ltd. Character recognition post-processing method
US5276616A (en) 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
US5280367A (en) * 1991-05-28 1994-01-18 Hewlett-Packard Company Automatic separation of text from background in scanned images of complex documents
US5379130A (en) * 1992-12-02 1995-01-03 Industrial Technology Research Institute Text/image separation method
US6002798A (en) 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
JP3518897B2 (ja) * 1994-09-05 2004-04-12 オリンパス株式会社 情報再生装置及び情報記録媒体
JPH08137880A (ja) 1994-11-14 1996-05-31 Canon Inc 文書処理装置
US5778095A (en) * 1995-12-20 1998-07-07 Xerox Corporation Classification of scanned symbols into equivalence classes
JP3254642B2 (ja) 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
WO1997038382A1 (de) * 1996-04-03 1997-10-16 Siemens Aktiengesellschaft Verfahren zur automatischen klassifikation eines auf einem dokument aufgebrachten textes nach dessen transformation in digitale daten
JPH09282328A (ja) 1996-04-16 1997-10-31 Canon Inc 文書画像処理装置及びその方法
JPH10240958A (ja) 1996-12-27 1998-09-11 Fujitsu Ltd 画像から管理情報を抽出する管理情報抽出装置および方法
KR100238030B1 (ko) 1997-07-23 2000-01-15 윤종용 자동 목차 작성 장치 및 방법
US5848410A (en) 1997-10-08 1998-12-08 Hewlett Packard Company System and method for selective and continuous index generation
US6906812B2 (en) * 2000-04-14 2005-06-14 Seiko Epson Corporation Symbol printer, symbol printing method, symbol printer driver, and a data storage medium storing a symbol printing program
CN1269060C (zh) * 2000-08-01 2006-08-09 复旦大学 处理和重复使用中文古籍的方法及其所采用的计算机软硬件系统
US7133565B2 (en) * 2000-08-25 2006-11-07 Canon Kabushiki Kaisha Image processing apparatus and method
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
DE10204751B4 (de) * 2002-02-06 2005-03-03 Heidelberger Druckmaschinen Ag Verfahren zur Konvertierung eines Linework Datenformats in das Format einer Seitenbeschreibungssprache
JP2004021381A (ja) 2002-06-13 2004-01-22 Ricoh Co Ltd 画像解析装置、プログラム及び記憶媒体
JP2005071014A (ja) 2003-08-22 2005-03-17 Canon Inc 文書画像処理装置、方法、プログラムおよび記憶媒体
CN100514357C (zh) * 2004-09-03 2009-07-15 深圳市海云天科技有限公司 填涂信息卡的信息识别方法
KR100664311B1 (ko) * 2005-11-18 2007-01-04 삼성전자주식회사 자동 인덱스 생성이 가능한 화상형성장치 및 그 자동인덱스 생성방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377255A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 索引文章的创建方法和装置
CN104871122A (zh) * 2013-01-21 2015-08-26 富士施乐株式会社 显示控制设备和程序
CN106515258A (zh) * 2016-11-10 2017-03-22 深圳市科迈爱康科技有限公司 笔记本、智能终端及笔记本内容索引创建方法
CN106515258B (zh) * 2016-11-10 2017-12-19 深圳市科迈爱康科技有限公司 笔记本、智能终端及笔记本内容索引创建方法
WO2019041526A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN114138214A (zh) * 2022-01-27 2022-03-04 北京辰光融信技术有限公司 一种自动生成打印文件的方法、装置和电子设备

Also Published As

Publication number Publication date
US20070116359A1 (en) 2007-05-24
US20110064310A1 (en) 2011-03-17
US7860316B2 (en) 2010-12-28
US8369623B2 (en) 2013-02-05
CN100517372C (zh) 2009-07-22
KR100664311B1 (ko) 2007-01-04

Similar Documents

Publication Publication Date Title
CN1967567A (zh) 自动创建索引的图像形成装置及其方法
US7860266B2 (en) Image processing system and image processing method
US8112706B2 (en) Information processing apparatus and method
CN1149509C (zh) 图像处理设备和方法
CN1303517C (zh) 图像处理装置和图像处理方法
US7743320B1 (en) Method and system for determining page numbers of page images
US7596271B2 (en) Image processing system and image processing method
US8493595B2 (en) Image processing apparatus, image processing method, program, and storage medium
US20110229035A1 (en) Image processing apparatus, image processing method, and storage medium
CN1684494A (zh) 图像形成装置、图像形成方法及其程序以及存储介质
CN1542656A (zh) 信息处理装置、信息处理方法、存储介质及程序
US20150304521A1 (en) Dynamically generating table of contents for printable or scanned content
JP2005004724A (ja) 画像処理装置及びその制御方法、プログラム
JP2006085298A (ja) 画像処理装置、画像処理方法
US20090234820A1 (en) Image processing apparatus, image processing method, and computer-readable storage medium
CN101069414A (zh) 在多页扫描过程中排除空白页的方法及其软件
CN1867030A (zh) 以预定次序打印扫描文档的成像设备及其方法
US20090324096A1 (en) Method and apparatus for grouping scanned pages using an image processing apparatus
CN1684493A (zh) 图像形成装置及其程序、存储介质以及图像形成方法
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
Ávila et al. A new algorithm for removing noisy borders from monochromatic documents
CN1577170A (zh) 光栅图象路径结构
US20210110586A1 (en) Mixed raster content (mrc) to control color changes
Simske et al. Creating digital libraries: content generation and re-mastering
US20200028987A1 (en) Methods and systems for enhancing image quality for documents with highlighted content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170309

Address after: Gyeonggi Do, South Korea

Patentee after: Aisi Printing Solutions Co.,Ltd.

Address before: Gyeonggi Do, South Korea

Patentee before: Samsung Electronics Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Gyeonggi Do, South Korea

Patentee after: S-PRINTING SOLUTION Co.,Ltd.

Address before: Gyeonggi Do, South Korea

Patentee before: Aisi Printing Solutions Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191105

Address after: Texas, USA

Patentee after: HEWLETT-PACKARD DEVELOPMENT Co.,L.P.

Address before: Han Guojingjidao

Patentee before: S-PRINTING SOLUTION Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090722

Termination date: 20211120