CN101203849B - 用户输入的预测转换 - Google Patents

用户输入的预测转换 Download PDF

Info

Publication number
CN101203849B
CN101203849B CN2006800225672A CN200680022567A CN101203849B CN 101203849 B CN101203849 B CN 101203849B CN 2006800225672 A CN2006800225672 A CN 2006800225672A CN 200680022567 A CN200680022567 A CN 200680022567A CN 101203849 B CN101203849 B CN 101203849B
Authority
CN
China
Prior art keywords
input
user
character set
target language
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800225672A
Other languages
English (en)
Other versions
CN101203849A (zh
Inventor
亚历山大·M·弗朗兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101203849A publication Critical patent/CN101203849A/zh
Application granted granted Critical
Publication of CN101203849B publication Critical patent/CN101203849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Abstract

公开了用于一种语言或字符集的用户文本输入到另一种语言或字符集的预测转换的系统和方法。该方法一般可以包括把以非目标语言或字符集表示的部分用户输入转换成以目标语言或字符集表示的转换后的部分用户输入,以及基于有希望的完成模块计算转换后的部分用户输入的有希望的可能转换完成。该转换可以基于非目标语言或字符集到目标语言或字符集映射的字典。所述有希望的完成模块可以是数据库或通过对用户输入的数据库或其子集执行统计分析而训练的模型。用户输入的子集可以从那些来自特定地理位置或时间段的和/或从用户或用户的当前会话的用户输入的子集中选择。

Description

用户输入的预测转换
技术领域
本发明一般涉及一种语言或字符集的用户文本输入到另一种语言或字符集的转换。更特别地,本发明公开了一种系统和方法,用于一种语言或字符集的用户文本输入到另一种语言或字符集的预测转换。
背景技术
对于用户来说,使用非目标语言输入装置,例如键盘,把文本直接输入到计算机系统可能是困难的或者不可能的。例如,使用传统的罗马字符或字母字符键盘直接输入基于非罗马字的语言(例如中文、日语和韩语(CJK))的文本,对于用户来说可能是困难的。取而代之,通常需要独立的转换步骤,在该步骤中,转换引擎把用户的字母串输入转换成目标语言。作为一个示例,一种用于输入中文语言文本的普通方法使用表示语音的输入,例如拼音。拼音使用字母字符并且具有以多音节词的形式列出的词汇表。然后拼音转换器把以拼音书写的文本转换成中文。例如,用户可以使用键盘上的罗马字母,输入期望的中文文本输入的拼音语音表示。然后拼音转换引擎可以把拼音输入转换成中文文本。然后适当的中文文本可以输入到应用中,例如,文字处理应用和/或搜索引擎。
作为另一个示例,日语文本可以使用各种不同的字符集表达,包括平假名、片假名和日本汉字,其中没有一个可以使用典型的基于罗马字母的ASCII键盘容易地输入。输入日语语言文本的一种方法使用罗马字(romaji),日语的语音罗马字母表示。例如,用户可以使用词处理器,例如来自日本德岛市JustSystem公司的Ichitaro,把罗马字文本输入转换成片假名、平假名和/或日本汉字。然后日语文本可以输入到应用中,例如文字处理应用和/或搜索引擎。商用转换引擎或程序的另一个示例是微软的用于各种语言的输入法编辑器。
然而,转换程序一般要求用户输入文本输入的完全表示。另外,这样的转换程序对于用户来说是冗长的,因为一方面的语音罗马表示和另一方面的本国语或目标语言表示的文本之间常常没有一对一的转换。取而代之,用户输入的大多数罗马表示输入是不明确的。换句话说,对于大多数罗马表示用户输入来说,存在转换程序可以进行的多于一个的本国语言转换。因而,转换程序可以在独立的窗口或者下拉列表中例如按照概率的顺序列出多个可能的转换。然后转换引擎和/或用户可以选择最佳的或正确的转换。显然,这样的输入法对于用户来说可能常常是冗长和耗费时间的,这至少部分由于不明确的罗马表示用户输入。
所需要的是一种更有效的和用户友好的方法,以用于使用非目标输入语言或字符集输入输入文本并且用于把用户输入转换成目标语言或字符集。
发明内容
公开了用于一种语言或字符集的用户文本输入到另一种语言或字符集的预测转换的系统和方法。应该理解,本发明可以以许多方式实现,包括过程、设备、系统、装置、方法或诸如计算机可读存储介质或计算机网络的计算机可读介质,在所述计算机网络中,程序指令通过光或电通信线路发送。下面描述本发明的若干发明实施方式。
该方法一般可以包括:把以非目标语言或字符集表示的部分用户输入转换成转换后的以目标预言或字符集表示的部分用户输入;基于有希望的完成模块(likely completions module)计算转换后的部分用户输入的可能的转换完成(possible converted completion),该有希望的完成以目标语言或字符集表示;以及输出一个或多个可能有希望的可能转换完成。所述转换可以基于非目标语言或字符集到目标语言或字符集映射的字典。所述有希望的完成模块可以是用户输入的数据库或其子集,或者可以是通过对用户输入的数据库或其子集执行统计分析而训练的模型。用户输入的子集可以从那些来自预定地理位置或时间段的和/或从用户或当前会话的用户输入的子集中选择。该方法也可以包括从多个有希望的完成模块中选择有希望的完成模块。
在另一种实施方式中,预测转换系统一般包括:预测转换引擎,其被配置成从以非目标语言或字符集表示的部分用户输入生成转换后的以目标语言或字符集表示的部分用户输入,并且被配置成基于有希望的完成模块和非目标语言或字符集到目标语言或字符集映射的字典,计算转换后的以目标语言或字符集表示的部分用户输入的有希望的可能完成。所述字典帮助预测转换引擎把以非目标语言或字符集表示的部分用户输入转换成转换后的以目标语言或字符集表示的部分用户输入。
在另一种实施方式中,用于结合计算机系统使用的计算机程序产品包括计算机可读存储介质,在该计算机可读存储介质上保存了计算机处理器上可执行的指令,该指令一般包括:接收部分用户输入,该部分用户输入以非目标语言或字符集表示;把部分用户输入转换成目标语言或字符集,以生成转换后的部分用户输入;基于有希望的完成模块计算转换后的部分用户输入的至少一个有希望的可能完成,该可能的完成以目标语言或字符集表示;输出至少一种可能有希望的可能转换完成。
具体来讲,按照本发明的一个方面,提供了一种方用于预测地转换部分用户输入的方法,包括:从用户接收部分用户输入,该部分用户输入以非目标语言或字符集表示,该非目标语言或字符集表示为罗马字符;基于有希望的完成模块执行部分用户输入的预测转换,以生成部分用户输入的至少一个可能的转换完成,该至少一个可能的转换完成以目标语言或字符集表示,该目标语言或字符集表示为非罗马字符,该步骤包括:将罗马字符的部分用户输入转换为转换后的部分用户输入,该转换后的部分用户输入是由罗马字符的用户输入表示的第一非罗马字符;以及从非罗马字符的转换后的部分用户输入生成可能的转换完成,每个可能的转换完成包括第一非罗马字符和第二非罗马字符,其中第一非罗马字符是第二非罗马字符的前缀,并且第二非罗马字符是不用所述部分用户输入表示的非罗马字符;以及输出所述至少一个可能的转换完成中的一个或多个。
按照本发明的另一个方面,提供了一种预测转换系统,包括:预测转换引擎,其被配置成基于有希望的完成模块执行以非目标语言或字符集表示的部分用户输入的预测转换,以生成部分用户输入的至少一个可能的转换完成,该至少一个可能的转换完成以目标语言或字符集表示,其中所述非目标语言或字符集表示为罗马字符,所述目标语言或字符集表示为非罗马字符;非目标语言或字符集到目标语言或字符集映射的字典,以帮助预测转换引擎从非目标语言或字符集到目标语言或字符集的转换,其中,所述预测转换引擎基于所述字典将罗马字符的部分用户输入转换为转换后的部分用户输入,该转换后的部分用户输入是由罗马字符的用户输入表示的第一非罗马字符,并且从非罗马字符的转换后的部分用户输入生成可能的转换完成,每个可能的转换完成包括第一非罗马字符和第二非罗马字符,其中第一非罗马字符是第二非罗马字符的前缀,并且第二非罗马字符是不用所述部分用户输入表示的非罗马字符。
本发明的这些以及其它特征和优势将在下面通过本发明示例原理的方式阐明的详细说明和附图中更详细地呈现。
附图说明
通过下面结合附图的详细说明,本发明将易于理解,附图中相似的参考数字指示相似的结构元件。
图1为说明性的信息检索系统的框图,在该信息检索系统中可以实现预测用户输入转换系统。
图2为用于实现示例的预测用户输入转换系统的说明性的计算系统或装置(例如图1所示的客户端或服务器)的框图。
图3为框图,更详细阐明了示例的预测用户输入转换系统。
图4为流程图,阐明了执行预测用户输入转换的示例过程。
图5为流程图,阐明了为预测用户输入转换器训练有希望的完成模块的示例过程。
具体实施方式
公开了用于一种语言或字符集的用户文本输入到另一种语言或字符集的预测转换的系统和方法。预测转换一般指用户文本输入的预测完成和从输入非目标语言或字符集到目标语言或字符集的转换。例如,以输入非目标语言或字符集表示的用户输入A可以被转换成以目标语言或字符集表示的X并被预测完成为XYZ。可替换地,以输入非目标语言或字符集表示的用户输入A可以被预测完成为ABC并被转换成以目标语言或字符集表示的XYZ。下面的说明使得任何本领域技术人员都能够实施和使用本发明。特定实施方式和应用的说明仅作为示例提供,各种修改对于本领域技术人员来说将很显然。这里定义的一般原理可以应用到其它实施方式和应用,而不背离本发明的精神和范围。因而,本发明将具有最宽的范围,包含与这里公开的原理和特征一致的许多替换、修改和等效。为了清晰的目的,与本发明相关技术领域中已知技术资料相关的细节没有详细描述,以避免不必要地模糊本发明。
用于一种语言或形式的用户输入到另一种语言或形式的预测转换的系统和方法使得用户易于使用非目标语言输入方法或诸如键盘的装置把文本输入到计算机系统中。例如,可以采用预测用户输入转换系统和方法使得用户易于使用传统的罗马字符或字母字符键盘输入以诸如中文、日语和韩语(CJK)的基于非罗马字的语言表示的文本。用户可以以第一语言或字符集(例如,诸如拼音或罗马字的语音输入)输入部分输入(例如词或字符的部分表示),预测用户输入转换系统可以将其预测转换成目标语言或字符集(例如中文字符或片假名、平假名和/或日本汉字),并向用户呈现一个或更多预测的建议转换。如这里提供的说明性示例中所描述的,预测转换系统和方法可以在信息检索系统或搜索引擎中实现,以把用户的字母串搜索输入预测转换成目标语言。例如,然后可以使用预测转换的用户输入来执行相关文档的搜索。然而,应该理解,预测转换系统和方法可以在各种其它合适的应用中实现,例如文字处理应用或要求文本输入的其它应用。
图1为说明性信息检索系统100的框图,在该信息检索系统100中,可以实现预测用户输入转换系统。系统100可以包括经由网络106连接到多个服务器104、105的多个客户端装置102。客户端装置102可以包括浏览器110,用于接受用户输入,以及用于显示通过网络106从其它系统102、104、105接收到的信息。服务器104、105可以包括搜索引擎112,用于接受通过网络106传送的用户查询,搜索文档数据库和返回结果给用户。网络106可以包括局域网(LAN)、广域网(WAN)、虚拟专用网(VPN)、电话网,例如公共交换电话网(PSTN)、内联网、互联网或网络组合。仅为了说明,图1所示的信息检索系统100包括经由网络106连接的三台客户端装置102和两台服务器104、105。然而,应该理解,实际上可以有更多或更少的客户端装置、服务器和/或网络,并且一些客户端装置也可以至少执行服务器的一些功能,一些服务器也可以至少执行客户端的一些功能。
图2为用于实现预测用户输入转换系统的说明性的计算系统或装置200的框图,例如图1所示的客户端102或服务器104、105。在一种实施方式中,系统200包括计算装置,例如个人计算机、便携式计算机、大型机、个人数字助理、蜂窝式电话等。系统200可以典型地包括处理器202、存储器204、用户接口206、用于接受移动存储介质208的输入/输出端口207、网络接口210和用于连接上述元件的总线212。
系统200的操作可以典型地由在保存在存储器204中的程序指导下工作的处理器202控制。存储器204一般包括计算机可读介质的某种组合,所述计算机可读介质例如高速随机访问存储器(RAM)和诸如只读存储器(ROM)、磁盘、磁盘阵列和/或磁带阵列的非易失性存储器。输入/输出端口207可以包括磁盘驱动器或存储器槽,用于接受计算机可读介质,例如软盘、CD-ROM、DVD、存储卡、磁带等。例如,用户接口206可以包括键盘、鼠标、笔、或用于输入信息的语音识别机构、以及一种或更多用于向用户呈现信息的诸如显示器、打印机、扬声器等的机构。网络接口210典型地可提供系统200和其它系统(和/或网络220)之间经由有线、无线、光的连接,和/或其它连接。
如下面更详细描述的,系统200可以配置成执行用户文本输入从一种语言或字符集到另一种语言或字符集的预测转换。这些操作可以典型地响应于处理器202执行包含在计算机可读介质(例如存储器204)上的软件指令来执行。软件指令可以经由通信接口210或I/O端口207从诸如数据存储装置208的另外的计算机可读介质、或者从另外的装置读入到存储器204中。如图2所示,存储器204可以包括各种程序或模块,以用于控制系统200的操作和执行预测转换以及下面更详细描述的可选的搜索和检索技术。例如,存储器204可以包括预测用户输入转换应用229、用户输入数据库230和源(非目标输入)语言到目标语言映射的字典231。源语言到目标语言映射的字典231使得预测转换应用229易于把以非目标语言或字符集表示的部分用户输入转换成目标语言或字符集。
例如,如果系统200为用于搜索引擎的服务器,诸如图1所示的服务器105,则存储器204可以进一步包括文档数据库和相应的索引232。文档数据库232可以是网页文集,用户输入数据库230可以是查询日志。存储器204也可以包括查询搜索引擎233,用于基于经由用户接口206接收到的查询和/或通过网络220从用户远程接收到的查询搜索文档数据库232。如图2所示,存储器204也可以包括:一种或更多程序,用于使用下面更详细描述的技术预测转换用户查询输入;以及用户接口应用234,用于操作用户接口206和/或用于通过网络220向远程用户提供网页。尽管图2阐明了一种主要基于软件的系统,但应该理解,在其它实施方式中,专用电路可以取代或结合软件指令来实现与本发明一致的过程。因而,本发明不局限于硬件和软件的任何特定组合。
应该理解,本发明的系统和方法可以利用缺少图1和2所示的某些元件和/或具有其它未显示的元件的装置和/或体系结构来实践。因而,应该理解,图1和2为了说明目的而提供的,不会限制本发明的范围。例如,应该理解,为了说明的目的,系统200被描述为单个的通用计算装置,例如个人计算机或网络服务器,而在其它实施方式中,系统200可以包括使用分布式计算技术一起工作的一个或更多这样的系统。在这样的实施方式中,图2中描述的一些或所有组件功能可以散布在位于多个位置的多个系统中,和/或通过多个参与者来操作。例如,预测用户输入转换应用229及其相关元件,包括用户输入数据库230和源(输入)语言到目标语言映射的字典231,可以在独立于文档数据库232所在系统的系统上实现。在一些实施方式中,预测查询转换应用231可以在客户端而不是服务器上执行。显然,可以对图1和2所示的说明做许多类似的变更,而不背离本发明的原理。
如先前指出的,图1和2所示的系统可以用来便利部分用户输入的预测转换。图3为阐明预测用户输入转换系统250的框图。如所示,预测用户输入转换系统250包括预测用户输入转换引擎229,其与源(非目标)语言到目标语言映射的字典231和用户输入数据库230通信。预测用户输入转换引擎229可以包括用于有希望的完成的模块235。在一些实现中,用于有希望的完成的模块235可以是用户输入的数据库或其子集。作为另一个示例,该模块可以是使用例如用户输入数据库230(例如,查询目志)或其子集训练的模型。有希望的完成模块235提供以目标语言或字符集表示的有希望的完成的输入串及其相应的概率。
图4为流程图,阐明用于执行预测用户输入转换的过程260。过程260可以为给定会话中的系列用户输入重复,例如,为以目标语言或字符集表示中的各字符、词或短语。在块262,接收以非目标语言或字符集表示的至少部分用户输入,例如前缀。如提到过的,部分用户输入以第一非目标语言或字符集表示,例如罗马字符或字母字符,它不同于目标语言或字符集,例如中文字符。然后,在块264和266,预测转换引擎可以尝试使用部分用户输入执行预测换。特别地,在块264,以第一非目标语言或字符集表示的部分用户输入被用来生成以目标语言或字符集表示的可能的转换。例如,第一非目标语言或字符集到目标语言或字符集映射的字典可以在执行块264时使用。在块266,生成部分用户输入的可能转换的可能完成。注意,在块266,预测转换引擎一般还基于预测转换的概率对完成的预测进行排序。该概率可以基于用户输入的数据库(例如查询日志)来确定,如下面将更详细描述的那样。特别地,有希望的完成模块可以在执行块266时使用。
在所示的示例中,过程首先在块264生成部分用户输入到目标语言或字符集的可能转换,然后在块266生成转换后的部分用户输入的可能完成。应该理解,块266可以在块264之前执行。具体来说,过程260可以在块266生成以非目标语言或字符集表示的部分用户输入的可能完成,并且在块264把可能完成转换成目标语言或字符集。作为另一个示例,块264和266可以结合为单个集成的预测转换过程。具体来说,过程260可以利用集成的预测转换数据结构或数据库,该数据库包含以非目标语言或字符集表示的部分用户输入到以目标语言或字符集表示的预测转换的映射。该数据库也可以包含映射的频率或者其它统计或概率信息。在这样的配置中,非目标语言或字符集到目标语言或字符集映射的字典应当被集成到预测转换数据库中。
可以利用一个或更多参数来影响块264和266(或上文所述的它们的变更)的操作。例如,一个参数可以指示优选较长或较短的预测完成。各参数可以通过系统或过程来自动设置,设置成默认值,和/或由用户来设置。
注意,在一些实施方式中,随着用户输入输入,预测转换引擎可以交互地监控块262中部分用户输入的长度,以便当用户已输入足以生成一个或更多预测转换的部分输入时,预测转换引擎可以执行预测转换。例如,当用户输入为拼音时,在预测转换引擎生成预测转换之前用户可以输入至少一个中文字符的拼音。例如,用户输入何时足以生成有意义和/或有用的预测转换的确定可以基于具体的用户输入以及部分用户输入的可能转换的概率和/或可能转换的可能完成的概率。
接下来,在块268,将以目标语言或字符集表示的一个或更多预测转换输出给用户。在一种实施方式中,基于预测转换概率的一组最高N个(例如,5个)预测转换被输出给用户。在另一种实施方式中,仅将具有最高概率的预测转换输出给用户。输出给用户的预测转换的个数可以基于预测转换的概率动态地确定。例如,预测转换引擎可以被配置成,例如如果最有希望的的预测转换的概率大于预定的阈值和/或大于预定的多个其次有希望的的预测转换,则只输出最有希望的的预测转换。在决定块270,如果用户选择了输出给用户的预测转换中的一个,则可以采用被选择的预测转换作为用户想要的转换,并且用于预测用户输入转换的过程260完成。然而,如果用户没有从块268中输出的预测转换中做出选择,如在决定块270所确定的那样,则过程260在块272继续接收进一步的用户输入,以便预测用户输入转换引擎可以使用额外的用户输入来执行预测转换。然后过程260返回到块264,以使用额外的用户输入来执行预测转换。
如上文提到的,预测转换的概率可以由预测转换引擎使用有希望的完成模块来计算。在一些实施方式中,用于有希望的完成的模块可以手动生成或以其它方式预先确定。更典型地,有希望的完成模块可以是使用用户输入和相应完成转换的数据库训练的有希望的完成模型。用于有希望的完成的数据库可以被定制,以适合于应用和/或用户。例如,对于输入文本到搜索引擎的用户,预测转换的概率可以使用所有用户的查询日志、或者在相同或相似地理位置和/或相同或相似时间段的用户的查询日志来计算。作为另一个示例,预测转换引擎可以通过只使用用户自己的输入或搜索(例如,用户的当前搜索会话或用户过去的搜索会话)来个人化。
图5为流程图,阐明了生成用于预测用户输入转换器的有希望的完成的模块的示例过程280。在块282,可以维护以目标语言或字符集表示的用户输入的日志,以建立用户输入数据库。如提到过的,用户输入数据库可以是与搜索引擎相关联的查询或搜索日志。数据库帮助确定预测完成转换的可能性。在块284,用户数据库或其子集可以用来生成有希望的完成模块。具体来说,可以选择用户数据库的子集,以生成具有特定特性的模块,例如,定制适合于应用和/或用户的模块。例如,可以基于从特定时间段、从特定地理位置的用户、从相同用户、从特定会话中的相同用户和/或各种其它适合的标准收集的输入来选择用户数据库的子集。在块286,通过对在块284中选择的数据库或其子集执行统计分析来生成有希望的输入串和有希望的完成(例如,搜索)的模块。用于训练有希望的完成模块的过程可以随着数据库的更新而周期性地执行,和/或可以被重复以生成各种模块,从而定制适合于应用和/或用户的每个模型。
如提到过的,预测转换引擎可以被集成到搜索引擎中。该集成可以以各种方式实现。例如,预测转换引擎可以实现为搜索引擎服务器的一部分,以便用户仅仅输入例如以罗马字表示的前缀或其它部分查询,然后服务器将部分查询转换成目标语言或字符集,并生成转换的一个或更多有希望的完成(或者,如上文提到过的,生成部分查询的有希望的完成并把有希望的完成转换成目标语言或字符集)。然后服务器可以返回最有希望的完成转换的列表,例如,5或10个最有希望的的完成转换的列表,用户可以从中进行选择,以执行搜索。可替换地或额外地,服务器可以基于最有希望的完成转换来执行搜索并返回搜索结果给用户。
除了在服务器侧提供预测转换引擎之外,预测转换引擎可以类似地在客户端侧实现,诸如在用户的客户端程序中,例如,在诸如网页浏览器的接口应用的工具栏中实现。在这样的配置中,用户可以开始输入部分输入(例如以罗马字母表示的查询),客户端侧预测转换引擎可以监控用户的输入,并且在用户提供了足够的信息量时,预测性地计算一个或更多可能的完成转换。可替换地,用户可以输入输入,或手动地或以其它方式使得预测转换引擎预测性地计算一个或更多可能的完成转换。例如,输出可以以弹出窗口或下拉列表来提供,用户可以从中选择一个可能的完成转换。
显然,不管是安装在服务器侧还是客户端侧,预测转换引擎或系统都通过允许用户只输入以非目标语言表示的期望输入的部分表示来便利用户输入。换句话说,用户只需要输入以非目标语言表示的起始序列、前缀或期望输入的其它部分表示,预测转换系统就执行到目标语言的转换以及对转换后的部分输入的预测完成。
尽管这里描述和阐明了本发明的示例实施方式,但是应该理解,它们只是说明性的,可以对这些实施方式进行修改而不背离本发明的精神和范围。因而,本发明的范围仅根据下列可以修正的权利要求来定义,各权利要求作为本发明的实施方式被明确地并入到了本说明书中。

Claims (17)

1.一种用于预测地转换部分用户输入的方法,包括:
从用户接收部分用户输入,该部分用户输入以非目标语言或字符集表示,该非目标语言或字符集表示为罗马字符;
基于有希望的完成模块执行部分用户输入的预测转换,以生成部分用户输入的至少一个可能的转换完成,该至少一个可能的转换完成以目标语言或字符集表示,该目标语言或字符集表示为非罗马字符,该步骤包括:
将罗马字符的部分用户输入转换为转换后的部分用户输入,该转换后的部分用户输入是由罗马字符的用户输入表示的第一非罗马字符;以及
从非罗马字符的转换后的部分用户输入生成可能的转换完成,每个可能的转换完成包括第一非罗马字符和第二非罗马字符,其中第一非罗马字符是第二非罗马字符的前缀,并且第二非罗马字符是不用所述部分用户输入表示的非罗马字符;以及
输出所述至少一个可能的转换完成中的一个或多个。
2.权利要求1中的方法,其中,所述执行还基于非目标语言或字符集到目标语言或字符集映射的字典。
3.权利要求1中的方法,还包括:
基于用户输入的数据库训练所述有希望的完成模块。
4.权利要求3中的方法,其中,所述数据库中的用户输入以目标语言或字符集和非目标语言或字符集之一表示。
5.权利要求3中的方法,其中,所述训练包括对所述数据库中的至少一部分用户输入执行统计分析,以确定部分用户输入的有希望的完成,
其中,在用户进行输入时,由预测转换引擎监控所述部分用户输入的长度,以便当用户已输入足以生成一个或更多预测转换的部分输入时,该预测转换引擎执行预测转换。
6.权利要求3中的方法,其中,所述训练基于所述数据库中用户输入的子集,该用户输入子集与至少下列之一相关联:地理位置、时间段和从其接收部分输入的用户。
7.权利要求1中的方法,还包括:
从多个有希望的完成模块中选择有希望的完成模块。
8.权利要求1中的方法,其中,所述部分用户输入为对搜索引擎的部分用户查询。
9.权利要求1中的方法,还包括:
基于可能的转换完成的概率,选择可能的转换完成的子集,所述输出为输出该可能的转换完成的子集。
10.一种预测转换系统,包括:
预测转换引擎,其被配置成基于有希望的完成模块执行以非目标语言或字符集表示的部分用户输入的预测转换,以生成部分用户输入的至少一个可能的转换完成,该至少一个可能的转换完成以目标语言或字符集表示,其中所述非目标语言或字符集表示为罗马字符,所述目标语言或字符集表示为非罗马字符;
非目标语言或字符集到目标语言或字符集映射的字典,以帮助预测转换引擎从非目标语言或字符集到目标语言或字符集的转换,
其中,所述预测转换引擎基于所述字典将罗马字符的部分用户输入转换为转换后的部分用户输入,该转换后的部分用户输入是由罗马字符的用户输入表示的第一非罗马字符,并且从非罗马字符的转换后的部分用户输入生成可能的转换完成,每个可能的转换完成包括第一非罗马字符和第二非罗马字符,其中第一非罗马字符是第二非罗马字符的前缀,并且第二非罗马字符是不用所述部分用户输入表示的非罗马字符。
11.权利要求10中的系统,还包括:
训练引擎,其被配置成基于用户输入的数据库训练所述有希望的完成模块。
12.权利要求11中的系统,其中,所述数据库中的用户输入以目标语言或字符集和非目标语言或字符集之一表示。
13.权利要求11中的系统,其中,所述训练引擎还被配置成对所述数据库中的一部分用户输入执行统计分析,以确定该部分用户输入的有希望的完成,
其中,在用户进行输入时,所述预测转换引擎监控所述部分用户输入的长度,以便当用户已输入足以生成一个或更多预测转换的部分输入时,该预测转换引擎执行预测转换。
14.权利要求11中的系统,其中,所述训练引擎还被配置成基于所述数据库中的用户输入的子集训练所述有希望的完成模块,该用户输入的子集与地理位置、时间段和用户中的一个或多个相关联。
15.权利要求10中的系统,其中,所述预测转换引擎还被配置成从多个有希望的完成模块中选择有希望的完成模块。
16.权利要求10中的系统,其中,所述部分用户输入为对搜索引擎的部分用户查询。
17.权利要求10中的系统,其中,所述预测转换引擎还被配置成基于可能的转换完成的概率选择可能的转换完成的子集作为输出。
CN2006800225672A 2005-04-21 2006-03-22 用户输入的预测转换 Active CN101203849B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/111,583 2005-04-21
US11/111,583 US7506254B2 (en) 2005-04-21 2005-04-21 Predictive conversion of user input
PCT/US2006/010355 WO2006115642A1 (en) 2005-04-21 2006-03-22 Predictive conversion of user input

Publications (2)

Publication Number Publication Date
CN101203849A CN101203849A (zh) 2008-06-18
CN101203849B true CN101203849B (zh) 2010-06-16

Family

ID=36829761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800225672A Active CN101203849B (zh) 2005-04-21 2006-03-22 用户输入的预测转换

Country Status (5)

Country Link
US (1) US7506254B2 (zh)
JP (1) JP2008537260A (zh)
KR (1) KR101249663B1 (zh)
CN (1) CN101203849B (zh)
WO (1) WO2006115642A1 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US8392453B2 (en) * 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US7840399B2 (en) * 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
US8904282B2 (en) * 2005-04-21 2014-12-02 Motorola Mobility Llc Electronic device having capability for interpreting user inputs and method therefor
US10735576B1 (en) * 2005-07-14 2020-08-04 Binj Laboratories, Inc. Systems and methods for detecting and controlling transmission devices
US7831913B2 (en) * 2005-07-29 2010-11-09 Microsoft Corporation Selection-based item tagging
US7861164B2 (en) * 2005-11-03 2010-12-28 Bin Qin Method to sequentially encode PINYIN of Chinese character with few symbols
JP2007193438A (ja) * 2006-01-17 2007-08-02 Casio Comput Co Ltd 電子辞書装置及び検索制御プログラム
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
NZ553484A (en) 2007-02-28 2008-09-26 Optical Systems Corp Ltd Text management software
US20080211777A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US8316295B2 (en) * 2007-03-01 2012-11-20 Microsoft Corporation Shared language model
US8677237B2 (en) * 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US8413049B2 (en) * 2007-08-31 2013-04-02 Research In Motion Limited Handheld electronic device and associated method enabling the generation of a proposed character interpretation of a phonetic text input in a text disambiguation environment
US8010465B2 (en) * 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US20090249198A1 (en) * 2008-04-01 2009-10-01 Yahoo! Inc. Techniques for input recogniton and completion
US20090292527A1 (en) * 2008-05-22 2009-11-26 Travelocity.Com Lp Methods, Apparatuses and Computer Program Products for Receiving and Utilizing Multidimensional Data Via A Phrase
US8745051B2 (en) * 2008-07-03 2014-06-03 Google Inc. Resource locator suggestions from input character sequence
JP5501581B2 (ja) * 2008-07-25 2014-05-21 シャープ株式会社 情報処理装置および情報処理方法
JP4827950B2 (ja) * 2008-07-31 2011-11-30 富士通株式会社 サーバ装置
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US20100325130A1 (en) * 2009-06-19 2010-12-23 Microsoft Corporation Media asset interactive search
WO2011003232A1 (en) * 2009-07-07 2011-01-13 Google Inc. Query parsing for map search
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US8327326B2 (en) * 2010-06-15 2012-12-04 Microsoft Corporation Inserting closing code constructs
US9626456B2 (en) * 2010-10-08 2017-04-18 Warner Bros. Entertainment Inc. Crowd sourcing for file recognition
CN102253929A (zh) * 2011-06-03 2011-11-23 北京搜狗科技发展有限公司 一种提示用户输入字符的方法和装置
WO2013029239A1 (zh) * 2011-08-30 2013-03-07 宇龙计算机通信科技(深圳)有限公司 词库更新装置、输入系统和输入方法及终端
US20130159919A1 (en) 2011-12-19 2013-06-20 Gabriel Leydon Systems and Methods for Identifying and Suggesting Emoticons
US8818791B2 (en) * 2012-04-30 2014-08-26 Google Inc. Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages
JP5805907B2 (ja) * 2013-07-30 2015-11-10 京セラドキュメントソリューションズ株式会社 表示装置及び画像形成装置
US9760624B1 (en) 2013-10-18 2017-09-12 Google Inc. Automatic selection of an input language
US20160283582A1 (en) * 2013-11-04 2016-09-29 Beijing Qihoo Technology Company Limited Device and method for detecting similar text, and application
CN105095191A (zh) * 2014-04-22 2015-11-25 富士通株式会社 基于多词单元进行辅助翻译的方法和装置
US9043196B1 (en) 2014-07-07 2015-05-26 Machine Zone, Inc. Systems and methods for identifying and suggesting emoticons
US9313219B1 (en) * 2014-09-03 2016-04-12 Trend Micro Incorporated Detection of repackaged mobile applications
US9762385B1 (en) 2015-07-20 2017-09-12 Trend Micro Incorporated Protection of program code of apps of mobile computing devices
CN105069064B (zh) * 2015-07-29 2019-04-30 百度在线网络技术(北京)有限公司 词汇的获取方法及装置、推送方法及装置
CN105138498A (zh) * 2015-08-03 2015-12-09 小米科技有限责任公司 输出字符信息的方法及装置
US9916448B1 (en) 2016-01-21 2018-03-13 Trend Micro Incorporated Detection of malicious mobile apps
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10375576B1 (en) 2016-09-09 2019-08-06 Trend Micro Incorporated Detection of malware apps that hijack app user interfaces
CN107844199B (zh) * 2016-09-18 2022-03-04 北京搜狗科技发展有限公司 一种输入方法、系统和用于输入的装置
CN108427508B (zh) * 2017-02-15 2024-01-19 北京搜狗科技发展有限公司 输入方法和装置、建立局域网词库的方法和装置
US11250221B2 (en) * 2019-03-14 2022-02-15 Sap Se Learning system for contextual interpretation of Japanese words
CN110737808A (zh) * 2019-09-30 2020-01-31 支付宝(杭州)信息技术有限公司 一种基于区块链的汉字串统计方法及系统
JP2021144271A (ja) * 2020-03-10 2021-09-24 オムロン株式会社 文字入力装置、文字入力方法、および、文字入力プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
CN1384940A (zh) * 1999-11-05 2002-12-11 微软公司 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
CN1452083A (zh) * 2002-04-16 2003-10-29 富士通株式会社 字符信息的转换处理系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212217A (ja) * 1995-02-08 1996-08-20 Toshiba Corp 知識蓄積方法および知識蓄積方法を用いた自然言語処理システム
US6377965B1 (en) 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
JPH11338858A (ja) * 1998-05-22 1999-12-10 Toshiba Corp 入力予測装置、入力予測方法及び入力予測プログラムを記録した記録媒体
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
JP2001005807A (ja) * 1999-06-24 2001-01-12 Makoto Iriuchijima 世界語候補用言語およびその翻訳関連単語の登録変換方法
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US6668085B1 (en) * 2000-08-01 2003-12-23 Xerox Corporation Character matching process for text converted from images
US7165022B2 (en) * 2001-06-13 2007-01-16 Fujitsu Limited Chinese language input system
CA2504423C (en) * 2002-10-31 2011-10-18 Arizan Corporation Methods and apparatus for summarizing document content for mobile communication devices
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
JP2005107638A (ja) * 2003-09-29 2005-04-21 Casio Comput Co Ltd 通信端末装置および通信端末処理プログラム
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
WO2005106705A2 (en) * 2004-04-26 2005-11-10 John Francis Glosson Method, system, and software for embedding metadata objects concomitantly with linguistic content
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
CN1384940A (zh) * 1999-11-05 2002-12-11 微软公司 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
CN1452083A (zh) * 2002-04-16 2003-10-29 富士通株式会社 字符信息的转换处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IBM CORP.New York,US.Method of modeless word completion.IBM technical disclosure bulletin39 2.1996,39(2),155-156.
IBM CORP.New York,US.Method of modeless word completion.IBM technical disclosure bulletin39 2.1996,39(2),155-156. *

Also Published As

Publication number Publication date
US7506254B2 (en) 2009-03-17
WO2006115642A1 (en) 2006-11-02
JP2008537260A (ja) 2008-09-11
US20060241933A1 (en) 2006-10-26
KR20080000679A (ko) 2008-01-02
KR101249663B1 (ko) 2013-04-01
CN101203849A (zh) 2008-06-18

Similar Documents

Publication Publication Date Title
CN101203849B (zh) 用户输入的预测转换
US10635392B2 (en) Method and system for providing interface controls based on voice commands
CN109032375B (zh) 候选文本排序方法、装置、设备及存储介质
US8392453B2 (en) Nonstandard text entry
CN106959994B (zh) 服务器侧的匹配
CN100565670C (zh) 用于用户模型化以增强对命名实体识别的系统和方法
CN102439542B (zh) 电子设备的文本输入系统及文本输入方法
CN101669116B (zh) 用于生成亚洲语字符的识别体系结构
JP5462001B2 (ja) 文脈上の入力方法
CN101334774A (zh) 一种字符输入的方法和输入法系统
JP2013232220A (ja) 非標準位置ベーステキスト入力
CN104933081A (zh) 一种搜索建议提供方法及装置
AU2018250372B2 (en) Method to construct content based on a content repository
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
CN111611452A (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
CN103869999A (zh) 对输入法所产生的候选项进行排序的方法及装置
CN109344374B (zh) 基于大数据的报表生成方法及装置、电子设备、存储介质
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
CN1928860A (zh) 用于校正按键错误的方法、搜索引擎和搜索系统
CN112749238A (zh) 搜索排序方法、装置、电子设备以及计算机可读存储介质
JP2012043115A (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN101083550A (zh) 一种实现网络实名的系统及方法
Tung et al. A modified phoneme-based Chinese input method for minimizing conflict code rate
CN112489633A (zh) 语音特征编码网络的训练方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder