CN101589389B - 使用移动设备系统的数字图像存档和检索 - Google Patents
使用移动设备系统的数字图像存档和检索 Download PDFInfo
- Publication number
- CN101589389B CN101589389B CN2007800502699A CN200780050269A CN101589389B CN 101589389 B CN101589389 B CN 101589389B CN 2007800502699 A CN2007800502699 A CN 2007800502699A CN 200780050269 A CN200780050269 A CN 200780050269A CN 101589389 B CN101589389 B CN 101589389B
- Authority
- CN
- China
- Prior art keywords
- digital picture
- mobile device
- digital
- speech
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
Abstract
公开了一种管理信息的计算机实现的方法。该方法能够包括从被配置成连接到移动设备网络的移动设备接收消息(该消息包括通过该移动设备拍摄的数字图像,并且包括对应于词的信息),使用光学字符识别从该数字图像信息确定词,基于该词索引该数字图像,以及存储该数字图像用于后来的基于一个或多个接收到的搜索词语的对数字图像的检索。
Description
背景技术
本说明书讨论信息组织系统和方法,并且更具体地,讨论与文档的自动化存档和检索相关的特征。
在每天的生活中,人们频繁地接收带有可能重要或不重要、以后可能需要或不需要的信息的物理文档。例如,经常在一天中接收到凭条和名片,而接受者经常不确定是否要保存这种文档以及要保存多长时间。这种文档能够被物理地保存或扫描用于在计算上存储。不管怎样,该保存的文档通常在没有任何存档元信息的情况下被随便放在某个位置(例如,随便放进抽屉或文件夹),或者人们必须有意地将存档元信息与文档关联(例如,通过根据某个备案系统将文档放置在特定的文件夹中,或者通过录入信息来与计算机上保存的文档关联)。
发明内容
该说明书描述了涉及文档存档的方法和系统。这些方法和系统允许用户存储并且容易地检索物理文档的数字表示。能够使用光学字符识别(OCR)技术来处理物理文档的数字图像,并且随后被索引并且存储,用于后来的检索。能够将图像获取、OCR处理和图像存档组合进端对端系统中,它能够促进每天的生活中所遇到的无数文档(例如,凭条、名片、医生的处方、票据、合同等)的管理,并且在一些实现中,该系统的用户仅需要拍摄照片来触发文档存档过程。
系统的用户能够容易地存档文档的数字图像(和将文档丢进抽屉一样简单和随意),并且还能够使用关键字搜索来容易地检索数字图像。安装在蜂窝电话中的数字照相机能够被用来捕捉图像,并且OCR技术能够被用来从这些图像识别并且提取相关的关键字,以允许后来的有效搜索。能够从移动设备直接将获取的文档图像传递到后端系统(例如,移动网关和电子邮件服务器)。系统用户无需将图像从移动设备下载到个人计算机来存档和存储该图像,因此使得图像存档对用户而言是个简单的过程。此外,还能够使用增强的OCR技术来处理较低分辨率的图像,增强的OCR技术包括各种预处理和后处理操作。因此,在每天的生活中所遇到的无数文档能够被容易地数字化、组织、迅速而有效地存储和检索。
一般来说,本说明书中所描述的主题的一方面能够被实现为一种计算机实现的方法,该方法包括:从被配置成连接到移动设备网络的移动设备接收消息,该移动设备包括数字照相机,并且该消息包括由数字照相机所拍摄的数字图像并且包括对应于词(word)的信息;使用光学字符识别从数字图像信息确定词;基于该词索引数字图像;以及存储该数字图像,用于后来的基于一个或多个接收到的搜索词语的对数字图像的检索。该方法能够进一步包括接收一个或多个搜索词语;以及基于该一个或多个搜索词语检索数字图像。
该方法能够包括验证移动设备(例如,基于移动电话号码和/或与接收到的数字图像相关联的信息)。接收消息能够包括接收附有数字图像的电子邮件消息;并且该方法能够包括向电子邮件消息添加词以及对应于移动设备的预定义标签中的至少一个;并且能够在电子邮件系统中执行确定、索引和存储。
接收数字图像能够包括接收响应于到数字照相机的单个输入而对单个物体拍摄的至少两个数字图像;并且确定词能够包括对该至少两个数字图像执行关联(correlative)光学字符识别以找到词。确定词能够包括以多比例(scale)执行光学字符识别。
该方法能够包括预处理数字图像以改善光学字符识别。该预处理能够包括通过最小化数字图像中所表示的文档的左右页边空白(margin)的位置差异来识别用于该数字图像的二值化阈值。该预处理能够包括通过迭代地获取在较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级。
该方法能够包括后处理词以识别并且纠正由光学字符识别引起的常见字符误识别。接收消息能够包括接收用于在数字图像中所表示的文档的类型指示,并且后处理能够包括根据用于该文档的类型指示在至少两个基于词典的语言模型之间选择,并且根据选择的基于词典的语言模型来对词进行后处理。此外,接收类型指示能够包括接收消息中用户指定的分类,该用户指定的分类选自包括名片和信用卡凭条的组。
该方面的其它实施例包括对应的系统、装置以及一个或多个计算机程序产品,即,编码在计算机可读介质上的计算机程序指令的一个或多个模块,用于由数据处理装置执行或用以控制数据处理装置的操作。
该说明书中所描述的主题的一方面能够被实现为一种系统,该系统包括:移动设备网络;多个移动设备,该移动设备被配置成拍摄数字图像、连接到该移动设备网络、以及通过该移动设备网络传送该数字图像;一个或多个计算机,该计算机被配置成从移动设备接收数字图像、应用光学字符识别以从该数字图像提取词、基于该提取的词索引数字图像、以及存储该数字图像用于后来的基于接收到的搜索词语的检索。该一个或多个计算机能够包括第一后端组件和第二后端组件,该第一后端组件被配置成接收该数字图像、验证移动设备以及应用光学字符识别,并且该第二后端组件被配置成索引该数字图像并且存储数字图像。该第二后端组件能够包括电子邮件系统。
移动设备能够包括移动电话,并且该移动设备网络能够包括移动电话网络。该一个或多个计算机能够包括个人计算机。该一个或多个计算机能够包括搜索装置。该一个或多个计算机能够被配置成基于与该移动设备相关联的移动电话号码来验证该移动设备。
该一个或多个计算机能够被配置成接收搜索词语,并且基于该搜索词语检索数字图像。该一个或多个计算机能够被配置成,向包括该数字图像的消息添加提取的词和预定义的标签。该一个或多个计算机能够被配置成执行关联光学字符识别。该一个或多个计算机能够被配置成以多比例执行光学字符识别。
该一个或多个计算机能够被配置成预处理数字图像以改善光学字符识别,并且后处理提取的词来识别并且纠正由光学字符识别引起的常见字符误识别。该一个或多个计算机能够被配置成,通过最小化数字图像中所表示的文档的左右页边空白的位置差异来识别用于该数字图像的二值化阈值。该一个或多个计算机能够被配置成,通过迭代地获取在较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级。
该一个或多个计算机能够被配置成,连同数字图像一起接收文档类型的指示、根据文档类型的指示在至少两个基于词典的语言模型之间选择,并且根据选择的基于词典的语言模型来对提取的词进行后处理。此外,文档类型的指示能够包括从包括名片和信用卡凭条的组中选择的用户指定的分类。
该说明书中所描述的主题的一方面能够被实现为一种系统,该系统包括:移动设备网络,该移动设备网络被配置成传送数字图像;服务器环境,该服务器环境被配置成通过计算机网络提供电子搜索服务;以及用于连接该移动设备网络与服务器环境的装置,该用于连接的装置包括用于应用光学字符识别以从该数字图像提取词的装置和用于经由该计算机网络向用于数字图像的电子搜索服务的服务器环境提供该提取的词和该数字图像的装置。该用于连接的装置能够包括用于验证在移动设备网络中的移动设备的装置。该用于提供的装置能够包括用于向包括该数字图像的消息添加提取的词和预定义的标签的装置。
该用于应用的装置能够包括用于执行关联光学字符识别的装置。该用于应用的装置能够包括用于以多比例执行该光学字符识别的装置。该用于应用的装置能够包括用于预处理该数字图像以改善该光学字符识别的装置,以及用于后处理提取的词以识别并且纠正由光学字符识别引起的常见字符误识别的装置。
该用于应用的装置能够包括用于通过最小化数字图像中所表示的文档的左右页边空白的位置差异来识别用于该数字图像的二值化阈值的装置。该用于应用的装置能够包括通过迭代地获取在较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级的装置。该用于应用的装置能够包括用于根据接收到的文档类型的指示在至少两个基于词典的语言模型之间选择的装置,以及用于根据选择的基于词典的语言模型来对该提取的词进行后处理的装置。此外,文档类型的指示能够包括从包括名片和信用卡凭条的组中选择的用户指定的分类。
在以下的附图和描述中阐述了本发明的一个或多个实施例的细节。从描述和附图以及从权利要求,本发明的其它特征、目标和优点将显而易见。
附图说明
图1是示例性数字图像存档系统的示意图。
图2是存档和检索数字图像的示例性方法的流程图。
图3是增强的光学字符识别的示例性方法的流程图。
图4是通用计算机系统的示例的示意图。
具体实施方式
图1是示例性数字图像存档系统100的示意图。该系统100包括通过移动设备网络120(例如,专用蜂窝电话网络或无线电子邮件网络)通信的多个移动设备110(例如,蜂窝电话或个人数字助理(PDA))。该设备110在它们能够使用无线传输(短程、中程或远程)进行通信的意义上来说是移动的。然而,移动设备110还能够包括用于有线通信的连接器(例如,通用串行总线(USB)连接器)。
移动设备110被配置成拍摄数字图像。因此,移动设备110包括数字照相机112。数字照相机112能够被安装在具有其它功能的设备中(例如,安装有照相机的移动电话或PDA),或者移动设备110能够是数字照相机112,它也具有无线通信的能力。
移动设备110能够被用以拍摄物理文档105的一个或多个数字图像132。该文档105能够是包括一个或多个词的任何物理文档。例如,文档105能够是名片、ATM(自动柜员机)凭条、信用卡购买凭条、医生的处方、旅行票据(例如,飞机票或火车票)、合同、信件、杂志中看到的食谱等。更一般地,文档105无需是纸件文档。文档105能够是一个人可能需要针对其存档的并且可检索的数字图像的带有词的任何物理物品,例如,路标、张贴的公告、丢失宠物标记、T恤等。注意,如这里所使用的术语“词”包括能够使用光学字符识别技术来识别的所有方式的文本信息,并且能够将多个符号组合在一起并且由系统看作是单个“词”,而不考虑间隔空白。
数字图像132能够在消息130中被发送到第一后端组件150。消息130能够是包括数字图像132的多媒体消息规范(MMS)消息。其它的消息格式也是可能的。例如,消息130能够是电子邮件消息。
第一后端组件150能够通过诸如因特网的另一个网络140连接到移动设备网络120。替选地,该第一后端组件150能够直接连接到移动网络120,或者被包括在移动网络120内。例如,第一后端组件150能够是被用以在接受数字图像132用于存档之前验证蜂窝电话110的移动网关。
第一后端组件150能够包括被配置成验证移动设备110的验证引擎152,以及被配置成对数字图像132应用光学字符识别的OCR引擎154。第一后端组件150能够生成要添加到消息130的索引信息134(例如,通过将信息添加到电子邮件消息的主题行),从而将索引信息134与数字图像132相关联。
该索引信息134包括使用光学字符识别在文档图像132中识别的一个或多个词。该索引消息134还能够包括附加信息,诸如预定义的标签、文档类型信息和系统状态信息。该预定义的标签能够对应于移动设备(例如,源移动电话号码)、与移动设备的图像存档特征相关联的功能名称(例如,用于“个人图像容器”的“PIC”能够是在移动设备的用户界面中使用来识别图像存档功能的标签),或者对应于二者。文档类型信息能够指示文档的性质(例如,名片对信用卡凭条),并且能够由用户来输入(例如,通过从移动设备的用户界面上的菜单来选择)或被自动地确定(例如,基于数字图像132中所表示的文档的相对垂直和水平尺寸)。
系统状态信息能够包括诸如图像获取、传输、接收或它们的组合的时间和日期(例如,时间戳)的信息。还能够包括另外的系统状态信息,诸如在图像获取、传输、接收或它们的组合时移动设备的地理位置。
第一后端组件150能够将包括有索引信息134的消息130发送到第二后端组件160。第二后端组件160能够通过诸如因特网的另一个网络140连接到移动设备网络120。替选地,第二后端组件160能够直接连接到移动网络120,或者被包括在移动网络120内。
第二后端组件160能够包括索引引擎162和检索引擎164。索引引擎162能够基于索引信息134存档文档图像132。检索引擎164能够基于从网络设备170接收到的一个或多个搜索词语来取得文档图像132,用于向网络设备170传递。网络设备170能够连接到移动设备网络或附加网络140。网络设备170可以是移动设备110或其它机器。例如,网络设备170能够是连接到因特网并且运行Web浏览器的个人计算机。
应理解,图1中示出的示例性系统100能够以多种不同的方式来实现,并且所示出的可操作组件的特定划分不是用于限制,而仅仅作为示例来呈现。如这里所使用的术语“后端组件”包括传统的后端组件(例如,数据服务器)和中间件组件(例如,应用服务器)二者。一般来说,能够使用在一个或多个位置中的一个或多个服务器,即服务器环境,来实现第一和第二后端组件150和160。例如,第一和第二后端组件150和160能够是在诸如由加利福尼亚山景城的Google公司提供的GMAIL TM系统的公共可接入电子邮件系统中的服务器机器。
另外,应理解,消息130能够使其格式在系统100的各种组件之间修改,并且因此,在每个阶段可以被认为是为单独的消息。例如,从移动设备110接收的消息能够是MMS格式,从第一后端组件150接收的消息能够是在第一和第二组件150和160之间所使用的专用消息格式,并且最后由网络设备170从第二后端组件160接收的消息能够是超文本标记语言(HTML)格式。
无论所使用的格式和组件配置如何,系统100将移动设备110、移动设备网络120和后端组件150和160集成为用于移动设备110的用户的一个服务。因此,例如,用户能够用他们的蜂窝电话拍摄照片并且将图像发电子邮件(或作为MMS发送)到他们的电子邮件账户,其中图像被自动地OCR处理和索引。然后,用户能够使用电子邮件系统的用户界面来访问和搜索图像。
图2是存档和检索数字图像的示例性方法200的流程图。从具有数字照相机的移动设备接收210消息。移动设备能够是蜂窝电话,用户已经在电子邮件系统中通过他们的账户为该蜂窝电话注册了蜂窝电话号码,并且消息能够是从蜂窝电话发送的电子邮件(例如,到已知的电子邮件地址,诸如archivegoogle.com)或者是发送到电子邮件系统简码的MMS(例如,利用指示存档服务的关键字)。来自移动设备的消息包括由数字照相机拍摄的一个或多个数字图像,并且该数字图像包括对应于词的信息(即,视觉地表示文档文本的图像数据)。
能够基于接收到的消息验证220移动设备。例如,移动网关或电子邮件系统能够基于之前使用的鉴权和关联机制来验证蜂窝电话。用户账户能够绑定到电话号码,并且鉴权和关联机制能够如下操作。用户能够通过在网站(例如,电子邮件系统的网站)填写表格指定用户的移动设备号码来发起绑定。自动化的系统能够处理该表格并且向进行Web请求的用户移动设备发送SMS(短消息服务)消息连同随机生成的字符串。然后,用户能够在Web上或者通过从相同的移动设备发送回的SMS来验证该字符串。只有该移动设备属于该用户时,用户才能知道该字符串。替选地,用户能够替代地从移动设备发起该绑定,从移动设备将消息发送到带有与用户相关联的识别符(例如,如由网站所指派的)的适当号码或简码。用户的账户接收带有字符串的消息,以被类似地验证。
使用光学字符识别从数字图像信息确定230词。这能涉及确定图像中的所有词或者仅提取相关的关键字。例如,能够忽略非常常见的词,诸如“a(一)”和“the(该)”,而词典中较不经常出现的词能够被排名为更可能相关。这能够涉及如Web搜索技术中所使用的简单地除去停用字(stopword)(例如,“and(和)”、“for(用于)”、“a(一)”、“the(该)”等)的传统技术。这还能够涉及将一些词主动地识别为可能更加相关,诸如识别可能表示人、地点、公司等的专有名词或命名的实体(例如,“John(约翰)”、“San Diego(圣地亚哥)”、“Barnes&Noble(巴诺书店)”等)。在一些实现中,能够识别所有的词,并且后端处的处理引擎(例如,索引引擎)能够处理相关词和非相关词之间的辨别。
在一些实现中,消息能够包括相同文档的至少两个图像,并且能够通过对该至少两个数字图像执行关联光学字符识别来找到词而确定词。例如,两个数字图像能够由用户来单独地拍摄并且手动地分组在一起用于电子邮件或MMS传输,或者能够响应于对数字照相机的单个输入来拍摄单个物体的两个数字图像。例如,参考图1,数字照相机112能够具有输入114,该输入114触发迅速连拍两张照片并且将其自动地发送到第一后端组件150。注意,输入114还能够被设计成触发一张照片和自动发送。
输入114能够是移动设备110上的物理按钮或者是移动设备110的图形用户界面中的图形元素。输入114能够是多功能的,诸如侧装式可压指轮。替选地,输入114能够专用于图像存档系统,使得响应于与输入114的单个用户交互来自动地传送移动设备的屏幕上所显示的任何照片用于OCR处理和存档。在任何情况中,输入114能够被配置成:响应于一个或两个用户输入动作(例如,一次或两次按钮按动),触发向第一后端组件150的图像发送。
再次参考图2,该确定的词能够被添加到主题行、标题行或电子邮件的主体,并且完整的图像能够被存储为附于电子邮件的附件。另外,电子邮件能够被自动地标记有预定义标签(例如,“PIC”)。能够基于词并且还可能基于该预定义标签来索引240数字图像。能够使用各种类型的词索引。例如,能够使用下面的专利申请中所描述的系统和技术:Paul Buchheit等人所有的于2004年3月31日提交的并且2005年10月6日公开的、标题为“EMAIL CONVERSATIONMANAGEMENT SYSTEM”的美国专利公开No.2005/0222985A1,以及Paul Buchheit等人所有的于2004年4月6日提交的并且2005年10月6日公开的、标题为“IDENTIFYING MESSAGES RELEVANT TO ASEARCH QUERY IN A CONVERSATION-BASED EMAIL SYSTEM”的美国专利公开No.2005/0223058 A1,二者通过引用并入在此。数字图像被存储250用于后来的数字图像的检索。注意,在一些实现中,索引和存储操作被互相集成在一起。
能够从网络设备接收260一个或多个搜索词语。这些搜索词语能够由用户诸如在Web浏览器界面(在移动电话、个人计算机等上)中输入,并且被发送到图像存档系统。替选地,能够由计算机响应于某个输入来生成这些搜索词语。在任何情况中,能够基于一个或多个搜索词语来检索270数字图像,并且将该数字图像呈现给用户或者发送到另一个系统组件用于进一步的处理。
在一些实现中,OCR技术处理低分辨率的图像(例如,来自一百万像素照相机的图像)。另外,能够采取步骤来设法解决由照相机/镜头质量、到拍摄文档的距离等引起的问题。能够使用图像增强和超分辨率技术来预处理文档图像,用于改善OCR能力。
图3是增强的光学字符识别的示例性方法300的流程图。能够接收310包括数字图像的消息,并且该消息能够包括用于在数字图像中所表示的文档的类型指示。诸如当用户在拍摄照片时注意到用于文档的类型(例如,名片相对于凭条)时,能够明确地包括该类型指示。替选地,类型指示能够是图像本身的一方面,诸如数字图像中所表示的文档的相对垂直和水平尺寸。例如,名片典型地具有通用的长宽比,这能够通过检查照片中任何纸件文档的边缘和它们与文档上文本的关系来从数字照片确定。该类型指示还能够通过找到了一些词的初始OCR转换(pass)来确定,并且然后能够使用这些词来指示文档类型,这能够影响后来的OCR处理。
能够预处理320数字图像以改善光学字符识别。该预处理能够涉及使用传统的技术来对图像去噪和去斜(deskew)。该预处理能够涉及通过最小化数字图像中所表示的文档的左右页边空白的位置差异来识别用于该数字图像的二值化阈值。另外,预处理能够使用迭代精化方案,该迭代精化方案通过迭代地获取低分辨率图像中其邻近像素的灰度级的加权组合来获得每个高分辨率像素的灰度级。
基于双三次/双线性/样条插值的传统超分辨率算法本质是在图像上运行低通滤波器,消除锐边。这导致图像进一步模糊,当原始图像已经部分地模糊时这可能不是所期望的。字母边界处的模糊能够造成OCR质量的降级。另一方面,与最邻近插值类似的边预留超分辨率算法能够造成使OCR引擎混乱的混淆伪像。相反地,以下描述的新方法能够在超采样的同时去模糊,而不增加噪声。注意,这里词“超采样”和“超分辨率”被同义地使用。
使g(x,y)|(x,y)∈[1...M,1...N]表示观察到的图像,其中M、N是图像尺寸。使f(x,y)|((x,y)∈R2)是基本的真图。在该模型中,g是f的模糊版本,即g=f*hPSF,其中*代表卷积运算符,并且hPSF代表点扩散函数(该函数有效地对模糊过程建模)。由于知道hPSF通常是执行加权邻近平滑化的窗口函数,所以无需明确地知道该hPSF。这样,能够用高斯函数来对点扩散函数建模。
将f(n)看作是对f的逼近并且g(n)=f(n)*hPSF,则该等式能够被重新写为,
其中,大写字母表示傅里叶变换。从以上等式,
(G-G(n))=(F-F(n))·HPSF或
(G-G(n))·(HBP)/c=(F-F(n))
其中c是常数并且HBP是滤波器。理想地,1-(HBP)/c·HPSF=0。然而,由于点扩散函数是低通滤波器,所以其傅里叶变换通常在很多频率下是零,这使得找到函数的逆函数变得复杂。
因此,实际上,能够使用迭代精化方案:F(n+1)=F(n)+(G-G(n))·(HBP)/c,其中选择HBP和c使得1-(HBP)/c·HPSF>0。选择c一般涉及折衷(tradeoff)。c越大意味着更大的噪声和错误容许度,但较慢的收敛,并且反之亦然。基本图像的初始逼近f(0)能够经由双三次B样条插值来创建。因此,迭代精化方案通过迭代地获取低分辨率图像中其邻近像素的灰度级的加权组合来获得每个高分辨率像素的灰度级。
能够对预处理的数字图像执行330光学字符识别,以确定数字图像中的词。能够以多比例(scale)执行OCR操作。运行以上的附有去模糊的超分辨率算法,能够创建文档的多个版本并且对其进行OCR处理。例如,原始比例的第一版本、2倍比例的第二版本和3倍比例的第三版本能够独立被馈给到OCR引擎,并且能够存储结果词的联合。原始文档可以具有混合的字体大小——最小的字体对于OCR引擎来说可能过小以至于不能识别。这些字体能够从文档的较高分辨率(或去模糊)版本来识别。另一方面,原始文档中的较大字体大小在超分辨之后可能变得对OCR引擎来说过大以至于不能识别。能够从较低分辨率的版本识别这些字体。
另外,不论是否以多比例执行OCR,通常,光学字符识别的初始结果将会是被分组到一起成为词的字符的字符串,这可以是或可以不是真正的词(例如,在数字“1”替换了小写字母“l”的情况下,词“clip”可能被读作“clip”)。因此,能够对词执行后处理以识别并且纠正由光学字符识别引起的常见字符误识别。该后处理能够是基于语言模型的,并且能够使用一个或多个词典。
在一些实现中,能够使用多个基于词典的语言模型。能够根据用于文档的类型指示,在至少两个基于词典的语言模型之间做出340选择。然后,能够根据选择的基于词典的语言模型来后处理350词。在其它实现中,单个基于词典的语言模型能够被用于要被OCR处理的所有图像(例如,词典能够是在Web上找到的词的子集)。
基于语言的后处理能够改善从文档图像获得的OCR结果的质量。能够在概率架构的场境内理解基于语言的后处理,该概率架构将来自OCR的字符串输出与词典中找到的词连接。注意,词典无需是标准的词典,而能够是从一个或多个文集(corpus)得到的词的任何集。
使w代表词(空格划界的字母的组合)。使s代表通过OCR过程输出的观察到的字符串。使用贝叶斯法则,
P(w|s)=P(s|w)P(w)/P(s)
给定观察到的字符串s,则目标是获得
w*=argmaxwP(w|s)=argmaxw(P(s|w)P(w))
其中P(w)指示词w出现的概率,P(w|s)指示当词被OCR看作s时实际上它是w的概率。因此,能够在后处理期间寻找到对于观察到的OCR输出字符串最大化词的后验概率的w。另外,后处理能够使用两个组件来计算w*:(1)用以在给定的文本上下文中估计P(w)的语言模型;以及(2)用以估计将词w读作s的概率P(s|w)的OCR错误模型。
语言模型给出在给定的上下文中词w出现的可能性。例如,能够对训练文档集中每个词的出现计数来建立词的词典和词的概率。这种基于词典的语言模型能够由加权有限状态机(WFSM)来表示,其中输入标签作为字符并且接受对应于所有词典词的状态。注意,该示例性语言模型可能不能很好的涵盖专有名词。
估计下一个字符对于目前所看到的字符串的概率的基于字符的语言模型通常对专有名词做得更好。该表示能够再一次是WFSM,具有下面的成本测量:
C(s1|c1...ci-1)=-logP(s1|c1...ci-1)
取代对以目前所看到的全部字符序列为条件的以上概率进行计算,仅需要使用少数的字符历史。这允许涵盖比训练集中所存在的更多的词。参见,例如,Kolak O.,Resnik P.,Byrne W.的“A generative probabilisticOCR model for NLP applications”,HLT-NAACL 2003。另外,能够使用基于n元词的模型。这些模型使用词对于之前的少数词的出现概率。还能够使用其它基于语言的模型。
错误模型计算OCR引擎将输入字符序列w读作s的概率。这也能够使用机器学习方法来估计,并且能够使用训练数据,即带有输入文本和OCR输出的示例性图像,来创建错误模型。输入和输出文本二者能够分别被分段为对应的字符片段w和s。例如,能够使用莱文斯汀编辑距离来完成该分段。莱文斯汀距离将两个字符串之间的距离测量为将一个字符串变换为另一个字符串所需要的操作(单个字符的插入/删除/置换)的最小数目。通过目前得到的分段的字符串对(s,w),能够计算加权有限状态变换器(WFST),其中输入标签对应于原始字符并且输出标签是OCR输出字符。参见,例如,Kolak O.,Resnik P.,ByrneW.的“A generative probabilistic OCR model for NLP applications”,HLT-NAACL 2003。替选地,编辑距离方法能够被用来通过从以上的计数测量P(s|w)直接地计算转移概率,并且使用逆变换作为变换成本。
能够使用带有已知基本事实的文档集来估计字母置换的成本/概率。能够记录为将每个观察到的OCR字符串变换为已知基本事实所需要的实际变换(单个字符的插入/删除/置换)。每个变换的出现数目是在OCR过程期间发生的该特定变换的概率/成本的测量。因此,将有可能存在大数目的字母“l”被误识为数字“1”的实例,并且因此对该出现指派高概率。
能够通过人工地从文本生成图像、将噪声添加到该生成的图像、并且随后从图像生成OCR引擎输出,来创建用于计算错误模型的训练数据。对于信用卡凭条和名片而言,能够使用本地公司收录(listing)数据来训练词典/语言模型。另外,能够要求系统的用户提交各种类型的文档图像来用作训练数据。
图4是通用计算机系统400的示例的示意图。该系统400能够被用于关联于根据一些实现的方法200和300所描述的操作。例如,系统400可以被包括在任何或所有的移动设备110、第一和第二后端组件150和160以及网络设备170中。
该系统400包括处理器410、存储器420、存储设备430和输入/输出设备440。组件410、420、430和440的每一个使用系统总线450被互连起来。处理器410能够处理用于在系统400内执行的指令。在一些实现中,处理器410是单线程处理器。在其它的实现中,处理器410是多线程和/或多核处理器。处理器410能够处理存储器420中或存储设备430上所存储的指令,用以在输入/输出设备440上显示用于用户界面的图形信息。
存储器420存储系统400内的信息。在一些实现中,存储器420是计算机可读介质。在一些实现中,存储器420是易失性存储器单元。在一些实现中,存储器420是非易失性存储器单元。
存储设备430能够提供用于系统400的海量存储。在一些实现中,存储设备430是计算机可读介质。在各种不同的实现中,存储设备430可以是软盘设备、硬盘设备、光盘设备或磁带设备。
输入/输出设备440提供用于系统400的输入/输出操作。在一些实现中,输入/输出设备440包括键盘和/或指示设备。在一些实现中,输入/输出设备440包括用于显示图形用户界面的显示单元。
能够以数字电子电路、或者以计算机硬件、固件、软件或其组合来实现所描述的特征。该装置能够以计算机程序产品来实现,该计算程序产品被有形地包含在信息载体中,例如,在机器可读存储设备或以传播信号中,用于由可编程处理器执行;并且方法操作能够由可编程处理器来执行,该可编程处理器执行指令程序以通过操作输入数据和生成输出来执行所描述的实现的功能。所描述的特征能够以一个或多个计算机程序来有利地实现,该计算机程序可以在包括至少一个可编程处理器的可编程系统上执行,该可编程处理器被耦接以从数据存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令,以及向数据存储设备、至少一个输入设备以及至少一个输出设备传送数据和指令。计算机程序是能够直接地或间接地在计算机中使用来执行某个行为或引起某个结果的指令集。能够以任何形式的编程语言,包括编译语言和解释语言,来写计算机程序,并且能够以任何形式,包括作为单机程序或作为模块、组件、子程序或适合于在计算环境中使用的其它单元,来部署计算机程序。
用于执行指令程序的适当处理器包括例如通用和专用微处理器二者、以及任何类型的计算机的单处理器或多个处理器的一个。一般地,处理器将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的重要元素是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器。一般地,计算机还将包括用于存储数据文件的一个或多个海量存储设备,或被操作地耦接以与其通信;这种设备包括磁盘,诸如内部硬盘和可移动盘;磁光盘;和光盘。适合于有形地包含计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,通过示例的方式包括:半导体存储器设备,诸如EPROM、EEPROM以及闪速存储器设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器能够通过ASIC(专用集成电路)来补充,或者被并入ASIC。
为了提供与用户的交互,能够在计算机上实现特征,该计算机具有诸如CRT(阴极射线管)或LCD(液晶显示)监视器的用于向用户显示信息的显示设备、以及诸如鼠标或跟踪球的通过其用户能够向计算机提供输入的键盘和指示设备。
能够在计算系统中实现该特征,该计算机系统包括诸如数据服务其的后端组件、或者包括诸如应用服务器或因特网服务器的中间件组件、或者包括诸如具有图形用户界面或因特网浏览器的客户端端计算机的前端组件、或者它们的任何组合。能够通过诸如通信网络的任何形式或介质的数字数据通信来连接系统的组件。通信网络的示例包括例如LAN、WAN以及形成因特网的计算机和网络。
计算机系统能够包括客户端和服务器。客户端和服务器通常互相远离并且典型地通过网络交互,诸如所描述的一个。客户端和服务器的关系借助于在一个或多个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
虽然以上已经详细描述了几个实现,但是其它的修改是可能的。例如,被配置成提供电子搜索服务和连接到网络的任何服务器环境(即,任何联网的搜索引擎)能够使用描述的系统和技术来与移动设备网络集成。服务器环境能够起网络可访问硬驱动的作用。此外,服务器环境无需是传统的后端或中间件组件。服务器环境能够是在个人计算机上安装并且被用于本地文件的电子搜索的程序,或者服务器环境能够是在企业网络中安装的搜索装置(例如,由加利福尼亚山景城的Google公司提供的GoogleTM In a Box)。
另外,附图中所描绘的逻辑流不需要示出的特定顺序、或序列顺序来达成期望的结果。可以提供其它的操作,或者可以从描述的流程中排除操作,并且其它的组件可以被添加到描述的系统,或者从描述的系统中移除。因此,其它的实现在所附的权利要求的范围内。
Claims (36)
1.一种管理信息的计算机实现的方法,所述方法包括:
从被配置成连接到移动设备网络的移动设备接收消息,所述移动设备包括数字照相机,并且所述消息包括由所述数字照相机拍摄的数字图像并且包括对应于词的信息;
使用光学字符识别从所述数字图像信息确定所述词,所述方法包括:根据用于所述数字图像中表示的文档的类型指示在至少两个基于词典的语言模型之间作出选择,并且根据所选择的基于词典的语言模型对所述词进行后处理以识别并且纠正由所述光学字符识别引起的常见字符误识别;
基于所述词索引所述数字图像;以及
存储所述数字图像用于后来的基于一个或多个接收到的搜索词语的对所述数字图像的检索。
2.根据权利要求1所述的方法,进一步包括验证所述移动设备。
3.根据权利要求1所述的方法,进一步包括:
接收所述一个或多个搜索词语;以及
基于所述一个或多个搜索词语检索所述数字图像。
4.根据权利要求1所述的方法,其中,接收所述消息包接收附有所述数字图像的电子邮件消息;所述方法进一步包括向所述电子邮件消息添加所述词以及对应于所述移动设备的预定义标签中的至少一个;并且其中,在电子邮件系统中执行所述确定、索引和存储。
5.根据权利要求1所述的方法,其中,接收所述数字图像包括接收响应于到所述数字照相机的单个输入而对单个物体拍摄的至少两个数字图像,并且确定所述词包括对所述至少两个数字图像执行关联光学字符识别以找到所述词。
6.根据权利要求1所述的方法,其中,确定所述词包括以多比例执行所述光学字符识别。
7.根据权利要求1所述的方法,进一步包括对所述数字图像进行预处理以改善所述光学字符识别。
8.根据权利要求7所述的方法,其中,所述预处理包括通过最小化所述数字图像中所表示的文档的左右页边空白的位置差异来识别用于所述数字图像的二值化阈值。
9.根据权利要求7所述的方法,其中,所述预处理包括通过迭代地获取较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级。
10.根据权利要求1所述的方法,其中,接收所述消息包括接收用于所述数字图像中表示的所述文档的所述类型指示。
11.根据权利要求10所述的方法,其中,接收所述类型指示包括接收所述消息中用户指定的分类,所述用户指定的分类是选自包括名片和信用卡凭条的组。
12.一种系统,包括:
移动设备网络;
多个移动设备,所述移动设备被配置成拍摄数字图像、连接到所述移动设备网络、以及通过所述移动设备网络传送所述数字图像;
一个或多个计算机,所述计算机被配置成从所述移动设备接收所述数字图像、应用光学字符识别来从所述数字图像提取词、基于所提取的词索引所述数字图像、以及存储所述数字图像用于后来的基于接收到的搜索词语的检索;
其中所述一个或多个计算机被配置为根据用于所述数字图像的文档类型的指示在至少两个基于词典的语言模型之间作出选择,并且根据所选择的基于词典的语言模型对所提取的词进行后处理。
13.根据权利要求12所述的系统,其中,所述一个或多个计算机包括第一后端组件和第二后端组件,所述第一后端组件被配置成接收所述数字图像、验证所述移动设备以及应用所述光学字符识别,并且所述第二后端组件被配置成索引所述数字图像以及存储所述数字图像。
14.根据权利要求13所述的系统,其中,所述第二后端组件包括电子邮件系统。
15.根据权利要求12所述的系统,其中,所述移动设备包括移动电话,并且所述移动设备网络包括移动电话网络。
16.根据权利要求12所述的系统,其中,所述一个或多个计算机包括个人计算机。
17.根据权利要求12所述的系统,其中,所述一个或多个计算机包括搜索装置。
18.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成基于与所述移动设备相关联的移动电话号码验证所述移动设备。
19.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成接收所述搜索词语,并且基于所述搜索词语检索所述数字图像。
20.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成向包括所述数字图像的消息添加提取的词和预定义标签。
21.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成执行关联光学字符识别。
22.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成以多比例执行所述光学字符识别。
23.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成对所述数字图像进行预处理来改善所述光学字符识别。
24.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成通过最小化数字图像中表示的文档的左右页边空白的位置差异来识别用于所述数字图像的二值化阈值。
25.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成通过迭代地获取较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级。
26.根据权利要求12所述的系统,其中,所述一个或多个计算机被配置成连同所述数字图像一起接收所述文档类型的指示。
27.根据权利要求26所述的系统,其中,文档类型的指示包括从包括名片和信用卡凭条的组中选择的用户指定的分类。
28.一种系统,包括:
移动设备网络,所述移动设备网络被配置成传送数字图像;
服务器环境,所述服务器环境被配置成通过计算机网络提供电子搜索服务;以及
用于将所述移动设备网络与所述服务器环境连接的装置,所述用于连接的装置包括用于应用光学字符识别以从所述数字图像提取词的装置,以及用于经由所述计算机网络向用于所述数字图像的电子搜索服务的所述服务器环境提供所提取的词和所述数字图像的装置;
其中用于应用的所述装置包括用于根据接收到的文档类型的指示在至少两个基于词典的语言模型之间选择的装置,以及用于根据所选择的基于词典的语言模型对所提取的词进行后处理的装置。
29.根据权利要求28所述的系统,其中,所述用于连接的装置包括用于验证在所述移动设备网络中的移动设备的装置。
30.根据权利要求28所述的系统,其中,所述用于提供的装置包括用于向包括所述数字图像的消息添加提取的词和预定义标签的装置。
31.根据权利要求28所述的系统,其中,所述用于应用的装置包括用于执行关联光学字符识别的装置。
32.根据权利要求28所述的系统,其中,所述用于应用的装置包括用于以多比例执行所述光学字符识别的装置。
33.根据权利要求28所述的系统,其中,所述用于应用的装置包括用于对所述数字图像进行预处理以改善所述光学字符识别的装置。
34.根据权利要求28所述的系统,其中,所述用于应用的装置包括用于通过最小化数字图像中表示的文档的左右页边空白的位置差异来识别用于所述数字图像的二值化阈值的装置。
35.根据权利要求28所述的系统,其中,所述用于应用的装置包括用于通过迭代地获取较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级的装置。
36.根据权利要求29所述的系统,其中,文档类型的指示包括从包括名片和信用卡凭条的组中选择的用户指定的分类。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/564,823 | 2006-11-29 | ||
US11/564,823 US7986843B2 (en) | 2006-11-29 | 2006-11-29 | Digital image archiving and retrieval in a mobile device system |
PCT/US2007/085764 WO2008067380A1 (en) | 2006-11-29 | 2007-11-28 | Digital image archiving and retrieval using a mobile device system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101589389A CN101589389A (zh) | 2009-11-25 |
CN101589389B true CN101589389B (zh) | 2012-04-11 |
Family
ID=39469536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800502699A Active CN101589389B (zh) | 2006-11-29 | 2007-11-28 | 使用移动设备系统的数字图像存档和检索 |
Country Status (9)
Country | Link |
---|---|
US (3) | US7986843B2 (zh) |
EP (2) | EP3246829B1 (zh) |
JP (2) | JP5266246B2 (zh) |
KR (1) | KR101462289B1 (zh) |
CN (1) | CN101589389B (zh) |
AU (1) | AU2007325200B9 (zh) |
BR (1) | BRPI0719356A2 (zh) |
CA (2) | CA3027962C (zh) |
WO (1) | WO2008067380A1 (zh) |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US8054971B2 (en) * | 2001-04-27 | 2011-11-08 | Comverse Ltd | Free-hand mobile messaging-method and device |
US7707188B2 (en) * | 2002-12-20 | 2010-04-27 | Schlumberger Technology Corporation | System and method for electronic archival and retrieval of data |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8521772B2 (en) | 2004-02-15 | 2013-08-27 | Google Inc. | Document enhancement system and method |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US20060041484A1 (en) | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US20120113273A1 (en) * | 2004-11-29 | 2012-05-10 | Ariel Inventions Llc | System, Method, and Devices for Searching for a Digital Image over a Communication Network |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US8511565B2 (en) * | 2006-10-17 | 2013-08-20 | Silverbrook Research Pty Ltd | Method of providing information via context searching of a printed graphic image |
US20080092055A1 (en) * | 2006-10-17 | 2008-04-17 | Silverbrook Research Pty Ltd | Method of providing options to a user interacting with a printed substrate |
US20080103901A1 (en) * | 2006-10-17 | 2008-05-01 | Silverbrook Research Pty Ltd | Resource initiated by a computer system causing printed substrate click facilitator to collect ad click-through fee |
US20080088581A1 (en) * | 2006-10-17 | 2008-04-17 | Silverbrook Research Pty Ltd | Online ad placement in response to zone of paper input |
US20090065523A1 (en) * | 2007-09-06 | 2009-03-12 | Chunghwa United Television Co., Ltd. | Broadcasting system extracting characters from images in hospital and a method of the same |
US8244037B2 (en) * | 2007-11-15 | 2012-08-14 | Master Wave International Company Ltd | Image-based data management method and system |
US20120290601A1 (en) * | 2007-11-15 | 2012-11-15 | Master Wave International Co., Ltd. | Image-based Data Management Method and System |
US20090138560A1 (en) * | 2007-11-28 | 2009-05-28 | James Joseph Stahl Jr | Method and Apparatus for Automated Record Creation Using Information Objects, Such as Images, Transmitted Over a Communications Network to Inventory Databases and Other Data-Collection Programs |
US8611661B2 (en) * | 2007-12-26 | 2013-12-17 | Intel Corporation | OCR multi-resolution method and apparatus |
ITRM20080296A1 (it) * | 2008-06-09 | 2009-12-10 | Ugo Nevi | Tecniche di salvataggio in tempo reale delle foto scattate per mezzo della fotocamera del telefonino. |
US8499046B2 (en) * | 2008-10-07 | 2013-07-30 | Joe Zheng | Method and system for updating business cards |
EP2189926B1 (en) * | 2008-11-21 | 2012-09-19 | beyo GmbH | Method for providing camera-based services using a portable communication device of a user and portable communication device of a user |
DE202010018601U1 (de) * | 2009-02-18 | 2018-04-30 | Google LLC (n.d.Ges.d. Staates Delaware) | Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung |
JP4762321B2 (ja) * | 2009-02-24 | 2011-08-31 | 株式会社東芝 | 画像認識装置、画像認識方法 |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
WO2010105245A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Automatically providing content associated with captured information, such as information captured in real-time |
JP5347673B2 (ja) * | 2009-04-14 | 2013-11-20 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US8626897B2 (en) * | 2009-05-11 | 2014-01-07 | Microsoft Corporation | Server farm management |
US8761511B2 (en) * | 2009-09-30 | 2014-06-24 | F. Scott Deaver | Preprocessing of grayscale images for optical character recognition |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US20110170788A1 (en) * | 2010-01-12 | 2011-07-14 | Grigori Nepomniachtchi | Method for capturing data from mobile and scanned images of business cards |
US8516063B2 (en) | 2010-02-12 | 2013-08-20 | Mary Anne Fletcher | Mobile device streaming media application |
JP2011203823A (ja) * | 2010-03-24 | 2011-10-13 | Sony Corp | 画像処理装置、画像処理方法及びプログラム |
JP2012008733A (ja) * | 2010-06-23 | 2012-01-12 | King Jim Co Ltd | カード情報管理装置 |
KR101175174B1 (ko) * | 2010-08-20 | 2012-08-23 | 주식회사에어플러그 | 실물의 이미지를 매개로 하여 정보를 전달하는 방법 및 장치 |
US9349063B2 (en) * | 2010-10-22 | 2016-05-24 | Qualcomm Incorporated | System and method for capturing token data with a portable computing device |
US10402898B2 (en) * | 2011-05-04 | 2019-09-03 | Paypal, Inc. | Image-based financial processing |
US8724931B2 (en) * | 2011-05-27 | 2014-05-13 | Ebay Inc. | Automated user information provision using images |
WO2013020205A1 (en) * | 2011-08-05 | 2013-02-14 | Research In Motion Limited | System and method for searching for text and displaying found text in augmented reality |
US10169339B2 (en) | 2011-10-31 | 2019-01-01 | Elwha Llc | Context-sensitive query enrichment |
US8965971B2 (en) | 2011-12-30 | 2015-02-24 | Verisign, Inc. | Image, audio, and metadata inputs for name suggestion |
US9063936B2 (en) * | 2011-12-30 | 2015-06-23 | Verisign, Inc. | Image, audio, and metadata inputs for keyword resource navigation links |
KR101894395B1 (ko) | 2012-02-24 | 2018-09-04 | 삼성전자주식회사 | 캡쳐 데이터 제공 방법 및 이를 위한 이동 단말기 |
KR102008495B1 (ko) | 2012-02-24 | 2019-08-08 | 삼성전자주식회사 | 데이터 공유 방법 및 이를 위한 이동 단말기 |
KR101919008B1 (ko) | 2012-02-24 | 2018-11-19 | 삼성전자주식회사 | 정보 제공 방법 및 이를 위한 이동 단말기 |
US8983211B2 (en) * | 2012-05-14 | 2015-03-17 | Xerox Corporation | Method for processing optical character recognizer output |
US20140068515A1 (en) * | 2012-08-29 | 2014-03-06 | mindHIVE Inc. | System and method for classifying media |
US20140067631A1 (en) * | 2012-09-05 | 2014-03-06 | Helix Systems Incorporated | Systems and Methods for Processing Structured Data from a Document Image |
US9942334B2 (en) | 2013-01-31 | 2018-04-10 | Microsoft Technology Licensing, Llc | Activity graphs |
US20140229860A1 (en) * | 2013-02-13 | 2014-08-14 | Microsoft Corporation | Activity Cards |
TWI477982B (zh) * | 2013-03-07 | 2015-03-21 | Univ Southern Taiwan Sci & Tec | 雲端證件系統及其操作方法 |
US10007897B2 (en) | 2013-05-20 | 2018-06-26 | Microsoft Technology Licensing, Llc | Auto-calendaring |
CN103347151B (zh) * | 2013-06-25 | 2015-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置和终端 |
US9530067B2 (en) | 2013-11-20 | 2016-12-27 | Ulsee Inc. | Method and apparatus for storing and retrieving personal contact information |
US9628416B2 (en) * | 2014-05-30 | 2017-04-18 | Cisco Technology, Inc. | Photo avatars |
US9286326B1 (en) * | 2014-09-05 | 2016-03-15 | WhisperText, Inc. | System and method for selecting sponsored images to accompany text |
TWI566593B (zh) * | 2015-02-17 | 2017-01-11 | 沈國曄 | 應用於多媒體視訊服務的互動系統及其方法 |
CN106845323B (zh) * | 2015-12-03 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 一种打标数据的收集方法、装置以及证件识别系统 |
KR102002225B1 (ko) * | 2017-11-23 | 2019-07-19 | 재단법인 다차원 스마트 아이티 융합시스템 연구단 | 번호판 인식 방법 및 그 시스템 |
US20200026726A1 (en) * | 2018-07-17 | 2020-01-23 | Vidit, LLC | Systems and methods for interactive searching |
US20200026731A1 (en) * | 2018-07-17 | 2020-01-23 | Vidit, LLC | Systems and Methods for Archiving and Accessing of Image Content |
US10740400B2 (en) | 2018-08-28 | 2020-08-11 | Google Llc | Image analysis for results of textual image queries |
JP7322468B2 (ja) * | 2019-03-29 | 2023-08-08 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
KR102179552B1 (ko) | 2019-05-15 | 2020-11-17 | 주식회사 한컴위드 | Ocr 기반의 증거 수집 장치 및 그 방법 |
US11227490B2 (en) | 2019-06-18 | 2022-01-18 | Toyota Motor North America, Inc. | Identifying changes in the condition of a transport |
US11494847B2 (en) | 2019-08-29 | 2022-11-08 | Toyota Motor North America, Inc. | Analysis of transport damage |
US11328120B2 (en) * | 2020-09-08 | 2022-05-10 | Vmware, Inc. | Importing text into a draft email |
KR102618275B1 (ko) * | 2020-11-30 | 2023-12-27 | 박회준 | 의약 관련 이미지 획득 방법 및 디바이스 |
US11956400B2 (en) | 2022-08-30 | 2024-04-09 | Capital One Services, Llc | Systems and methods for measuring document legibility |
CN116958986A (zh) * | 2023-05-11 | 2023-10-27 | 东莞市铁石文档科技有限公司 | 一种用于档案管理的数据化转换系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1630302A (zh) * | 2003-12-17 | 2005-06-22 | 大唐移动通信设备有限公司 | 可自动录入文字、图像的手机及其录入与处理方法 |
US7092870B1 (en) * | 2000-09-15 | 2006-08-15 | International Business Machines Corporation | System and method for managing a textual archive using semantic units |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3641495A (en) * | 1966-08-31 | 1972-02-08 | Nippon Electric Co | Character recognition system having a rejected character recognition capability |
US3872433A (en) * | 1973-06-07 | 1975-03-18 | Optical Business Machines | Optical character recognition system |
JPS5381839A (en) | 1976-12-27 | 1978-07-19 | Isuzu Motors Ltd | Engine starting-up acceleration control system |
JPS6277172A (ja) | 1985-09-27 | 1987-04-09 | Mazda Motor Corp | 鋳物の製造装置 |
JPH0612438B2 (ja) | 1987-09-28 | 1994-02-16 | 大日本スクリーン製造株式会社 | 走査データ記憶装置を備える原画保持装置 |
US4949392A (en) * | 1988-05-20 | 1990-08-14 | Eastman Kodak Company | Document recognition and automatic indexing for optical character recognition |
JPH0273598A (ja) | 1988-09-09 | 1990-03-13 | Matsushita Electric Ind Co Ltd | 電流検出装置 |
JPH02183665A (ja) | 1989-01-09 | 1990-07-18 | Sanyo Electric Co Ltd | ファクシミリ装置 |
JP2888252B2 (ja) | 1990-06-04 | 1999-05-10 | 田中電子工業株式会社 | 半導体素子用ボンディング線 |
JPH05267249A (ja) | 1992-03-18 | 1993-10-15 | Hitachi Ltd | ドライエッチング方法及びドライエッチング装置 |
JPH0571349A (ja) | 1991-09-12 | 1993-03-23 | Royal Pootoreeto:Kk | 内燃機関装置 |
JPH05189538A (ja) | 1992-01-13 | 1993-07-30 | Hitachi Ltd | 画像ファイル装置 |
JP2759589B2 (ja) | 1992-12-28 | 1998-05-28 | キヤノン株式会社 | 強誘電性液晶表示素子 |
JPH06195923A (ja) | 1992-12-28 | 1994-07-15 | Sony Corp | ディスクカセット及びその製造方法 |
US6002798A (en) * | 1993-01-19 | 1999-12-14 | Canon Kabushiki Kaisha | Method and apparatus for creating, indexing and viewing abstracted documents |
US5748780A (en) * | 1994-04-07 | 1998-05-05 | Stolfo; Salvatore J. | Method and apparatus for imaging, image processing and data compression |
CA2155891A1 (en) | 1994-10-18 | 1996-04-19 | Raymond Amand Lorie | Optical character recognition system having context analyzer |
JPH08123800A (ja) | 1994-10-27 | 1996-05-17 | Nec Software Ltd | 光学式文字読み取り認識装置 |
US5963966A (en) * | 1995-11-08 | 1999-10-05 | Cybernet Systems Corporation | Automated capture of technical documents for electronic review and distribution |
JPH11102414A (ja) * | 1997-07-25 | 1999-04-13 | Kuraritec Corp | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 |
JPH11120185A (ja) * | 1997-10-09 | 1999-04-30 | Canon Inc | 情報処理装置及びその方法 |
JP3773642B2 (ja) | 1997-12-18 | 2006-05-10 | 株式会社東芝 | 画像処理装置および画像形成装置 |
US6646765B1 (en) | 1999-02-19 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Selective document scanning method and apparatus |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US6775665B1 (en) | 1999-09-30 | 2004-08-10 | Ricoh Co., Ltd. | System for treating saved queries as searchable documents in a document management system |
US6704120B1 (en) | 1999-12-01 | 2004-03-09 | Xerox Corporation | Product template for a personalized printed product incorporating image processing operations |
US6362895B1 (en) * | 2000-01-10 | 2002-03-26 | Imagex, Inc. | PDF to PostScript conversion of graphic image files |
US7324139B2 (en) * | 2000-01-20 | 2008-01-29 | Ricoh Company, Ltd. | Digital camera, a method of shooting and transferring text |
FR2806814B1 (fr) | 2000-03-22 | 2006-02-03 | Oce Ind Sa | Procede de reconnaissance et d'indexation de documents |
US6993205B1 (en) * | 2000-04-12 | 2006-01-31 | International Business Machines Corporation | Automatic method of detection of incorrectly oriented text blocks using results from character recognition |
US20040049737A1 (en) * | 2000-04-26 | 2004-03-11 | Novarra, Inc. | System and method for displaying information content with selective horizontal scrolling |
US20010051998A1 (en) | 2000-06-09 | 2001-12-13 | Henderson Hendrick P. | Network interface having client-specific information and associated method |
US20020103834A1 (en) * | 2000-06-27 | 2002-08-01 | Thompson James C. | Method and apparatus for analyzing documents in electronic form |
US20020053020A1 (en) * | 2000-06-30 | 2002-05-02 | Raytheon Company | Secure compartmented mode knowledge management portal |
US7054508B2 (en) * | 2000-08-03 | 2006-05-30 | Canon Kabushiki Kaisha | Data editing apparatus and method |
US7426513B2 (en) * | 2000-10-12 | 2008-09-16 | Sap Portals Israel Ltd. | Client-based objectifying of text pages |
JP2002183665A (ja) * | 2000-12-11 | 2002-06-28 | Hitachi Ltd | パターン認識方法 |
JP2002259388A (ja) * | 2001-03-05 | 2002-09-13 | Fujitsu Ltd | 画像検索システム、方法及び画像検索プログラム |
US20020135816A1 (en) | 2001-03-20 | 2002-09-26 | Masahiro Ohwa | Image forming apparatus |
US7149784B2 (en) * | 2001-04-23 | 2006-12-12 | Ricoh Company, Ltd. | System, computer program product and method for exchanging documents with an application service provider at a predetermined time |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
JP4240859B2 (ja) | 2001-09-05 | 2009-03-18 | 株式会社日立製作所 | 携帯端末装置及び通信システム |
US20030110158A1 (en) * | 2001-11-13 | 2003-06-12 | Seals Michael P. | Search engine visibility system |
US20030125929A1 (en) * | 2001-12-10 | 2003-07-03 | Thomas Bergstraesser | Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network |
US6768816B2 (en) * | 2002-02-13 | 2004-07-27 | Convey Corporation | Method and system for interactive ground-truthing of document images |
US20030189603A1 (en) * | 2002-04-09 | 2003-10-09 | Microsoft Corporation | Assignment and use of confidence levels for recognized text |
US6737967B2 (en) | 2002-05-10 | 2004-05-18 | Simplexgrinnell, Lp | Wireless walk through test system |
DE10226257A1 (de) | 2002-06-13 | 2003-12-24 | Bosch Gmbh Robert | Verfahren zur Detektion einer Person in einem Raum |
JP2004038840A (ja) | 2002-07-08 | 2004-02-05 | Fujitsu Ltd | メモ画像管理装置、メモ画像管理システムおよびメモ画像管理方法 |
US6868424B2 (en) * | 2002-07-25 | 2005-03-15 | Xerox Corporation | Electronic filing system with file-placeholders |
US20040098664A1 (en) * | 2002-11-04 | 2004-05-20 | Adelman Derek A. | Document processing based on a digital document image input with a confirmatory receipt output |
US20040252197A1 (en) * | 2003-05-05 | 2004-12-16 | News Iq Inc. | Mobile device management system |
JP2007503032A (ja) | 2003-08-20 | 2007-02-15 | オセ−テクノロジーズ・ベー・ヴエー | ドキュメントスキャナ |
US7287037B2 (en) * | 2003-08-28 | 2007-10-23 | International Business Machines Corporation | Method and apparatus for generating service oriented state data mapping between extensible meta-data model and state data including logical abstraction |
US7424672B2 (en) * | 2003-10-03 | 2008-09-09 | Hewlett-Packard Development Company, L.P. | System and method of specifying image document layout definition |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7466875B1 (en) | 2004-03-01 | 2008-12-16 | Amazon Technologies, Inc. | Method and system for determining the legibility of text in an image |
JP2005267249A (ja) * | 2004-03-18 | 2005-09-29 | Sharp Corp | データ処理システム、サーバおよび通信装置 |
US7814155B2 (en) * | 2004-03-31 | 2010-10-12 | Google Inc. | Email conversation management system |
US7912904B2 (en) * | 2004-03-31 | 2011-03-22 | Google Inc. | Email system with conversation-centric user interface |
US7499588B2 (en) * | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
US20050289182A1 (en) * | 2004-06-15 | 2005-12-29 | Sand Hill Systems Inc. | Document management system with enhanced intelligent document recognition capabilities |
US20050289016A1 (en) * | 2004-06-15 | 2005-12-29 | Cay Horstmann | Personal electronic repository |
US7911655B2 (en) * | 2004-10-06 | 2011-03-22 | Iuval Hatzav | System for extracting information from an identity card |
JP2006195923A (ja) * | 2005-01-17 | 2006-07-27 | Ricoh Co Ltd | 画像情報処理システム、および画像情報処理方法 |
US20060206462A1 (en) | 2005-03-13 | 2006-09-14 | Logic Flows, Llc | Method and system for document manipulation, analysis and tracking |
US8289541B2 (en) * | 2006-09-12 | 2012-10-16 | Morgan Stanley | Document handling |
US20080162602A1 (en) * | 2006-12-28 | 2008-07-03 | Google Inc. | Document archiving system |
US20080162603A1 (en) * | 2006-12-28 | 2008-07-03 | Google Inc. | Document archiving system |
JP5267249B2 (ja) | 2009-03-17 | 2013-08-21 | タイヨーエレック株式会社 | 遊技機 |
-
2006
- 2006-11-29 US US11/564,823 patent/US7986843B2/en not_active Expired - Fee Related
-
2007
- 2007-11-28 WO PCT/US2007/085764 patent/WO2008067380A1/en active Application Filing
- 2007-11-28 AU AU2007325200A patent/AU2007325200B9/en active Active
- 2007-11-28 CA CA3027962A patent/CA3027962C/en active Active
- 2007-11-28 EP EP17177890.5A patent/EP3246829B1/en active Active
- 2007-11-28 CA CA2671025A patent/CA2671025C/en active Active
- 2007-11-28 KR KR1020097013412A patent/KR101462289B1/ko active IP Right Grant
- 2007-11-28 CN CN2007800502699A patent/CN101589389B/zh active Active
- 2007-11-28 BR BRPI0719356-4A patent/BRPI0719356A2/pt not_active IP Right Cessation
- 2007-11-28 EP EP07854811.2A patent/EP2102762B1/en active Active
- 2007-11-28 JP JP2009539459A patent/JP5266246B2/ja active Active
-
2011
- 2011-07-12 US US13/181,263 patent/US8620114B2/en active Active
-
2013
- 2013-03-08 JP JP2013046421A patent/JP5559899B2/ja active Active
- 2013-10-09 US US14/049,772 patent/US8897579B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092870B1 (en) * | 2000-09-15 | 2006-08-15 | International Business Machines Corporation | System and method for managing a textual archive using semantic units |
CN1630302A (zh) * | 2003-12-17 | 2005-06-22 | 大唐移动通信设备有限公司 | 可自动录入文字、图像的手机及其录入与处理方法 |
Non-Patent Citations (1)
Title |
---|
Albrecht Schmidt.Using mobile phones for domain specific Information Appliances.《UbiComp 2005,the 7th internetional conference on Ubiquitous computing》.2005,1-2页. * |
Also Published As
Publication number | Publication date |
---|---|
US8897579B2 (en) | 2014-11-25 |
EP2102762B1 (en) | 2017-06-28 |
EP3246829A1 (en) | 2017-11-22 |
CA2671025A1 (en) | 2008-06-05 |
BRPI0719356A2 (pt) | 2014-02-04 |
AU2007325200B9 (en) | 2012-11-22 |
WO2008067380A1 (en) | 2008-06-05 |
JP2010511253A (ja) | 2010-04-08 |
US20080126415A1 (en) | 2008-05-29 |
US8620114B2 (en) | 2013-12-31 |
AU2007325200B2 (en) | 2012-07-19 |
KR20090084968A (ko) | 2009-08-05 |
US7986843B2 (en) | 2011-07-26 |
EP3246829B1 (en) | 2021-03-03 |
US20110274373A1 (en) | 2011-11-10 |
CN101589389A (zh) | 2009-11-25 |
AU2007325200A1 (en) | 2008-06-05 |
EP2102762A4 (en) | 2009-12-16 |
KR101462289B1 (ko) | 2014-11-14 |
JP5559899B2 (ja) | 2014-07-23 |
US20140044365A1 (en) | 2014-02-13 |
EP2102762A1 (en) | 2009-09-23 |
CA3027962A1 (en) | 2008-06-05 |
CA3027962C (en) | 2021-04-06 |
JP5266246B2 (ja) | 2013-08-21 |
CA2671025C (en) | 2019-07-16 |
JP2013127815A (ja) | 2013-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101589389B (zh) | 使用移动设备系统的数字图像存档和检索 | |
US11062131B1 (en) | Systems and methods of check detection | |
US10783367B2 (en) | System and method for data extraction and searching | |
US20220343295A1 (en) | Check tampering prevention using blockchain | |
US8244037B2 (en) | Image-based data management method and system | |
US9800754B2 (en) | Global registration of filled-out content in an application form | |
CN112560861B (zh) | 票据处理方法、装置、设备及存储介质 | |
US20140236791A1 (en) | Image retrieval and transaction id capture | |
CN109145760A (zh) | 智能填单方法、装置、计算机设备及存储介质 | |
CN111881943A (zh) | 图像分类的方法、装置、设备和计算机可读介质 | |
CN106257451A (zh) | 网站访问的方法及装置 | |
CN103377199B (zh) | 信息处理装置和信息处理方法 | |
Ozarslan et al. | Text recognition and correction for automated data collection by mobile devices | |
CN116703484A (zh) | 一种营销内容推送方法、电子设备及计算机存储介质 | |
JP2007213563A (ja) | 手形に関する情報の管理 | |
CN117037506A (zh) | 违停车辆巡查处理方法及其装置、设备、介质 | |
CN117668336A (zh) | 文档处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder |