CN1059414A - 中文句子的翻译方法 - Google Patents

中文句子的翻译方法 Download PDF

Info

Publication number
CN1059414A
CN1059414A CN91108789A CN91108789A CN1059414A CN 1059414 A CN1059414 A CN 1059414A CN 91108789 A CN91108789 A CN 91108789A CN 91108789 A CN91108789 A CN 91108789A CN 1059414 A CN1059414 A CN 1059414A
Authority
CN
China
Prior art keywords
mentioned
character
speech
register
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN91108789A
Other languages
English (en)
Other versions
CN1026927C (zh
Inventor
窦祖烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN1059414A publication Critical patent/CN1059414A/zh
Application granted granted Critical
Publication of CN1026927C publication Critical patent/CN1026927C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system

Abstract

一种把中文字符句子翻译成另一种预先选定的 非中文的目标语言的方法由如下步骤组成:把中文句 子字符串输入计算机的主存储器;把第一个预先确定 数量的字符移入具有预先确定容量的第一寄存器;把 第二个预先确定数量的字符移入具有预先确定容量 的第二寄存器;使用预先选定的分割程序的规则和逻 辑,智能地搜索一本词典以识别字符串的多字符词; 把被识别的非数字词暂时地存储在一个词缓冲寄存 器内;和把被识别的数字词暂时存储在一个输出寄存 器内。

Description

本发明,一般来说,涉及到语言的翻译方法,具体来说,它涉及到由中文到任何一种外国语言的翻译方法。
中文的书写系统并不由拉丁字母所组成,因为前者的成熟远在拉丁字母的发明以前。在中文中,一个词并不由字母组合而成,完全不同的是中文的词是由字符所组成的,可以是一个、二个、三个或更多的字符。
如果每一个词只用一个字符来表达,则翻译机器或许很容易就可以设计出来,因为机器只要对每一个中文字符查找出相应的外文翻译并显示出翻译的结果。
被设计出来的计算机不必做比字符翻译更多的工作。这样的计算机把各个孤立的中文字符翻译成英文字或其他国家的字。但是,这样的计算机是无法满足要求的,因为,就象前面已经说过的,中国语言使用大量的词,它们由多个字符所组成,并且在翻译词中的每一个字符时,如果不考虑到由它所结合成词的其他字符,则这一多字符词的意义往往是无法理解的。因此,一台计算机如果只是对句子中的每一个字符查找出它的翻译,总是会得到一个无意义或难于理解并且有时是错误的结果。
例如,一台计算机在遇到下面五个中文字符“我不好意思”并愚蠢地按它们的孤立的意思对应地翻译成“I  no  good  meaning  thought”。通晓中文的人,当然懂得这句话的意思,但是对他们来说根本就不需要翻译。但是,对于不通晓中文的人,就要设法猜测这句话的意思,绝大部份人会认为它的意思是“My  thoughts  have  no  goodmeaning”(我的思想中没有好的意图)或“I  am  having  thoughts  of  no  good  meaning”(我正有着意图不良的想法)或其他。实际上这句话是“我不好意思”即英文的“I  beel  embarrassed。”在提出本发明以前,还没有一台计算机可以做这样的翻译。
作为另外一个实例,普通话中的“先生”和“太太”是一个单字符,一台计算机把这样的单字符简单地翻译过来看起来好象是没有问题的。然而,在任何一篇中文小说或文章中当涉及到人时,这一台计算机就会做出这样的翻译,诸如“first  born  Chang”和“very  very  Chang”等。不容细说,对于那些熟悉中文的人来说,他们知道“first  born”是“先生”和“very,very”是“太太”;然而,对于其他的人来说,他们就要费尽心计地去猜这句翻译的意思并且未必见得能猜得正确。
世界上有五分之一的人在使用中文的书写系统。在多种中国方言,诸如普通话与广东话之间并不需要有书写字符的翻译,因为所有的中国方言使用具有相同意义的相同的书写字符,也就是说,所有字符的发音方法是有所区别的。在中国每年所出版的技术文献和文艺作品的量是极为众多的。对于不懂中文的人,当然无法阅读这些作品,而西方的绝大部分训练有素的技术人员对其他的外语都知道不多甚至是完全无所知的。因此,一台计算机如果能把中文的文学作品或技术著作介绍给不懂中文的人是完全必要的。计算机,如果只是简单地把孤立的中文字符译成其他语言的孤立的字,即字符翻译计算机,按前面所列举的实例来看其用处不大;但是,根据法律的要求作为一个总体来考虑,这项超前的技术正是具有一般性技术的人所不曾知道怎样用以来获得较好翻译的。
到目前为止未能得到满足的对于翻译计算机的需求受限于过去的装备,现在可由本发明的新机器的一汉词识别机器(CWIM)来得到解决,这种机器使用人工智能和模式识别技术来分割一个汉字字符串并从该字符串中找出一些词使得翻译的结果不致含有莫明其妙或意义不明的辞句。其特点是:输入字符串中的字符集合三个一群地组合起来,成为三字组,这一过程成为翻译过程的一部份。
本发明的新机器是一台语言处理机,也就是说,它不是一台字符翻译机;它使用新的分割规则和逻辑去识别句子中出现的多字符汉词以此来对这些词提供一个有意义的表达。
包含有单字符词、双字符词、三字符词等的数据库首先被建立起来。各种多字符的词被编在一本多字符词的词典中。
说得更具体一些,共有四本不同的词典,它们是:人名或地方名词典,数字词典,常用词(但非人名、数字)词典和专用词词典(即在前三本词典中没有的技术词目)。因此,新机器的不同用户必须购置不同的型号。例如,医生需要购置的是专业词典中含有医学名词的型号;而物理学家要购置的是含有物理专门名词词典的型号。
打算翻译的中文句子先输入到用来进行翻译的计算机存储器内。句子可以用键盘输入,但由于中文打印机的复杂性,比较好的数据输入方式是不用键盘的,此即使用光学字符阅读机或类似的无键数据输入装置来输入数据。
当输入字符串的三字符组内出现数字时,它们立即就被翻译出来。
随后,输入字符串中的非数字字符被组合成中文字的序列。例如,若一中文句子由十四个非数字的字符所组成。如果该字符串全部由单字符的词所组成,则这些字符就被组合成由十四个词组成的词的序列。然而,十四个字符应包含至少一个或多个多字符的词,新机器就把这字符串组合成候选的中文词序列。由二个字符结合成的词,由三个字符结合成的词等都各自地被组合起来,实现翻译过程的第一步的这种装置被称之为中文词序列的发生器(CWSG)。这样,每一组字符经识别后代表一个可能的或似是的中文词。这些词被看做是候选的词,因为在这一初始的翻译阶段中,这些可能的或似是的词是否代表作者的原意还不能最后确定下来。显然,这一初始翻译阶段是以模式匹配来实现的,也就是说,把这些字符与数字词典,名词词典等词典进行匹配来实现的。很复杂的规则和逻辑顺次地加到输入语句中的每一个三字组上,以识别出候选词,它们暂不送至本发明的输出缓冲寄存器,对于后者将在后面再加以说明。这些候选词被存放在一个词缓冲寄存器内,由这些复杂的规则沿深度方向进行逻辑分析。词缓冲寄存器中的这些候选词经深度方向的分析并按作者的原意进行肯定或删除以后再送至输出缓冲寄存器。重要的是,在显示出最后的翻译结果以前,还有另外一个翻译阶段要加到输出缓冲寄存器内的词上。例如,在英语为目标语言时,最后翻译阶段要把输出缓冲寄存器中的中式表达“Smith先生”改变成“Mr.Smith”。然而,中文的常用词“长时不见”,则对目标语英语来说,是不必再经过这最后阶段翻译的;但对另一些不采用这种词句的语种来说,后阶段的翻译则是必要的。
由似是的词组成的中文字符串输入至字符串分割处理机(CSSP);CSSP使用逻辑规则来确定这一候选词是否被接受以进行最后的翻译,或者要替换成另一个不同的词。与CSSP连在一起的是一个识别词用的知识库,后者则是与前面说过的四本词典连通在一起的。至此可以看出,CWSG的体系结构由CSSP、知识库和词典所组成。
CSSP使用前面已经提到过的三字符分割过程(或TSP)对字符进行最后的分组。TSP通过顺次搜索四本词典进行模式匹配,连接地对每三个结合在一起的字符作分组处理并且通过使用复杂的规则由只是似是的词区别出符合作者原意的词,通过这一些,TSP的句子的字符串中识别出中文的词和短语。
作为一个例子,如果第一个三字组在名词词典中得到匹配,并且在接着使用选定的逻辑规则使这似是的匹配得到肯定后,则这三字组就被认定为一个似是的名词。然而,在所有的逻辑规则都被用过以前,对这候选词不会有翻译结果显示出来,接下来,第二个三字组可能有两个字符在常用词词典中匹配结果,对于余留下来的一个字符,不先认为它是一个单字符词并在词典中搜寻匹配结果,先在字符串中引入两个后续字符以形成一个新的三字组并重复上述过程。然而,如这新三字组中的第一个字符不能识别为多字符词的第一个字符,这一字符就按单字符词来进行翻译。
TSP由若干规则和逻辑定理所构成,它们都是分割用的规则。在本发明中,这些规则的应用分成两个阶段,它们是:初始阶段和深度阶段。
然而,在介绍这些分割规则的概貌以前,先要简明地总述一下这新系统。
新机器的设计和工作次序是这样的:它先把输入中文句子的前六个字符取进主寄存器,于是,通过软件,从这六个字符中取出前三个字符并把它们放进一缓冲寄存器,它被称之为三字缓冲寄存器,取这样的名称是因为在任何时刻它不会取多于三个的字符。一俟这三字缓冲寄存器被装满以后,与该系统结合在一起使用的软件开始执行TSP任务,也就是说,这些分割规则开始发生作用。这里所指的分割规则包括两个阶段;先是初始或开始的模式匹配阶段,这时候选的词被识别出来并且某一些分割规则被用过;后一个阶段是使用所有的规则和逻辑原则来检验这初始或候选的翻译并在必要时对这暂定的翻译进行修正。
第一个规则使机器对三字缓冲寄存器中的第一个字符与数字词典中词进行匹配。如果得到击中的记录,这过程将对以后的字符进行直至数字词典中找不到匹配对象为止。已经识别出来的数字词被放进输出缓冲寄存器内。三字缓冲寄存器于是重新自动地装满,并且第二条规则被施加上去。以这一数字翻译过程作为整个翻译过程的开始是因为所有的数字都单字符词,不会有意义上的混淆不清,因此对它们得到的最终翻译不会存在什么混淆之处。还有,因为表达中文中所有数字的只有十六个字符,数字的翻译是通过硬件实现的,也即通过一块附加的印刷电路板来进行数字的翻译,得到数字翻译结果要求的时间几乎是瞬时的,因为不必消耗时间于搜索一本漫长的词典。
反之,如果在第一条规则被施加以后得不到击中的纪录,也就是说,这一字符不能识别为数字字符,软件系统就会采用第二条规则。第二条规则企图使机器对三字组中的第一个字符识别为单字符非数字词。为了确定这单字符确实是一个非数字的单字符词并且不是双字符词中的第一个字符,在这第二步中也要考虑进第二个字符。在作出这种判定以后,即如经过外词典的匹配,这一单字符为一单字符词,它被识别并放进词缓冲寄存器,随后另外一个字符将从主寄存器中取出以保持三字组缓冲寄存器内始终装有三个字符,并且第二条规则将再被使用。
如果第一个字符要被确认为双字符词中的第一个字符,词典被搜索,对这两个字符进行识别;识别以后的词也放进词缓冲寄存器,这两个字符由三字缓冲寄存器中移出,于是句子中的后面两个字符将从主寄存器移至三字缓冲寄存器,仍旧保持其中继续存放三个字符。
于是第四条规则被使用:如果新的三字组与词典中的三字符相匹配,词的识别工作被完成和由主寄存器取出三个新的字符。
然而,如果按照第四条规则在词典中所做的搜索显示出该三字组的字符为多于三个字符词的一部分,则第五条规则被使用。第五条规则使机器由主寄存器取出几个字符,其数量足以与多于三个字符的词模式相匹配。因为前面已经讲过,三字缓冲寄存器的空间为三个字符,因此这里面的三个字符首先被移至词缓冲寄存器,为凑满这多于三个字符的词所要求的多出来的字符提供空间。按照这种形式,长于三个字符的词被识别,同时被识别的词被移至词缓冲寄存器;当然在上述词缓冲寄存器中的该局部词的字符首先要从词缓冲寄存器移掉。
如果找不到多于三字符的词的匹配,第六个规则使机器去识别是否为二字符词或三字符词,这决定于被匹配的字符的数量。较多的字符从主寄存器取出以形成一个新的三字组并继续进行词模式的匹配。
如果在第六步中得到的识别结果既为二字符词又为三字符词,则第七个规则起作用。用检查姓名词典的方法来试探地解决这个多义性问题。
如果在姓名词典中得不到匹配结果,规则七,其(a)部分使机器由主寄存器取出第四个字符并与词典进行第三、第四个字符的模式匹配。如果得到的匹配结果,规则七(b)使机器用经过上述匹配识别出来的两字符词去替换词寄存器中原来存放着的三字符词。三个新的字符于是从主寄存器中取出以形成一个新的三字组并继续进行词模式匹配。
如果在使用规则七(b)后得不到匹配结果,则规则七(c)使机器由主寄存器取出第四和第五个字符并把第三、四、五个字符与词典进行模式匹配。
如果使用规则七(c)后得到匹配结果,这三个字符被识别为一个三字符词,于是该三字符词就替换掉以前的三字符词。
第八个规则只有用在当相邻的被识别词具有交叠的字符的时候。这时,第八个规则使机器把原来存放的词寄存器中的词换成新词。
第九个规则以及最后第十个规则只有用在所有前面的规则都不能解决的不明确的时候。第九个规则使CWSG从输入的字符串产生出两个词的序列,随后进行上下文分析以选定正确的分割方法。作为上下文分析的一个实例,设有一对语音响应的计算机被用来显示语音,一个字其发音类似“right”、“write”和“wright”的,其识别要看它的前面有否“Mr.”,“Mrs.”,“Ms”或“Miss”。一种相类似的上下文分析被用来解决上面说过的八个规则和逻辑原则在使用以后仍旧余留下来的含义不明确的字符串。
显然,除非所有的含义不明确的字符都被上述规则和逻辑解释以后,不会有词送至输出寄存器以等待最后的翻译。应注意到,这些最后翻译的规则决定于目标语的特性。
用来实现上述运算的电路敷设在一块印刷电路板上,它可以附加到任一种(如IBM兼容机)个人计算机的主插件板上。
本发明的基本目的是提供世界上第一种方法或机器以明确和意义正确地把中文翻译成任何一种外国语言。
另外一个重要目的是提出一种机器,它是有很工程化的形式可被任何一个有(如IBM兼容器)个人计算机的用户所拥有和使用并能有效地实现新方法的各项计算步骤。
随着叙述的深入这两个以及另外一些重要的目的,以及本发明的一些优点和特点将益形明显。
因此本发明包括结构特点,元件的组合和部件的组织,它们将在这里以及以后详情地加以说明;至于本发明涉及的范围将在下面的要求权利中加以说明。
为了较完整地理解本发明的实质和目的,必须对照附图作如下的描述:
图1是本发明的中文词序列发生器(CWSG)的框图;
图2是这个新的翻译计算机系统的设计结构;还有
图3是一功能关系图,它示出本机器的这些IC芯片的相互连接。
几个图中用相同的数字符号来代表相同的部件。
参看图1,这是CWSG的系统组织,它的总体以数字10来代表。CSSP以12来代表,知识库为14,词典的总体为16。就象前面已经很清楚地阐述过的,输入中文字符串18由该系统生成单、双、三字符或更多字符的词以后转变成中文词的序列20。
具体地说,设一中文句子有十四个非数字的字符。为避免复制中文字符起见,它们用符号A,B,C,D,E,F,G,H,I,J,K,L,M和N来表达,在使用前面讲过的分割规则以后,一个中文词的序列20将被表达如下,这里下面划线的相邻字符被识别为各个词:A,B,C,D,E,F,G,H,I,J,K,L,M,N。也就是说,A,B,C,为一个词,D,E,也为一个词,其他以此类推。
现在来参看图2,新系统的设计结构其总体用数字30来代表。如前所述,中文句子31,它当然是一个字符串,通过适当的设备输入至计算装置32的存储器。软件系统由句子中取出前六个字符并把它们沿线路36输入至主寄存器34。一本数字词典35和数字检测器37通过33与分割处理机40相连。三字缓冲寄存器42通过导线44接至分割处理机40。分割处理机40还通过导线48接至词缓冲寄存器50。线54把词缓冲寄存器50接至输出寄存器56。输出寄存器56用来存放成为词序列的中文句子,但是最后翻译成目标语言则是由软件58来实现的。其中含有目标语言翻译的规则和逻辑。
具有这些背景概念以后,可以从事有意义的审阅图三。根据图3和以下的说明电路设计和计算机工程中的普通技能可用来构成该机器并用该机器来实现本发明的各个步骤。
在图3中以数字60来代表用以设计汉词识别机器CWIM的IC芯片的总体。个人计算机32附设着带有上述芯片的印刷电路板被示出于该图的左侧,使各芯片的动作同步的时钟装置62则示出于右侧。时钟装置62中含有一时钟发生器U2(型号82284),和一具石英振荡器XI,后者的作用是主振频率发生器。所有元件的号码前面冠以U的都是IC芯片。所有的芯片都可在诸如Lafayette  Radio(商店名称)的电子元件商店中购得。
分割处理机40与时钟62通过连线64相连接而与三字缓冲寄存器42则通过连线44相连接。为简化说明起见,把各部件连接在一起的线路装置将不加以叙述,并且它们已在图3中被示出。类似地,为了简化图上的表达,也因为这些仅属于一般性的技芯,电源、接地以及其他众所周知的部件在新电路中均未示出。分割处理机40包括一个微处理机U1(型号80286),一个寄存器U24(型号74LS10,它是多个三输入的NAND门)和一个现成的装置U25(型号74LS21,它是多个四输入的AND门)。
词典的号码为35,它是一2K×8的PROM,U19(型号27S191),这是新机器硬件中的一部份,还有一些如词典16等,在图3中并未示出,是名词词典,它在图1的介绍中曾被指出过;这些词典存放在PC的硬磁盘中并与新设计的印刷线路板相耦连。
数字检测器37由芯片U20,U21,U22和U23组装而成,因此,它也是新设计的硬件的一部分,芯片U20是一个数字解码器(型号74LS153,这是一个4.1选通器);芯片U21(型号74LS175)是用来识别数字的计数器;芯片U22(型号74LS125)的作用为输入一个被识别的数字,是一只四路的总线寄存器;还有芯片U23(型号74LS00)用来检测被识别的数字,它是多个双输入的NAND门。芯片U5和U6相同,为八位D锁存器(型号74LS374),它们所起的作用为一个本地地址缓冲器80。这两片芯片如图所示地被连到分割处理机40和本地地址解码器82,后者的型号为74LS139,它所提供的为2-4解码器。
分割程序的规则和逻辑被存放在芯片U7和U26中,其型号相应地为27S191和74LS02,它们组合起来提供分割程序和分割程序控制装置,后者为图3中的84。芯片U7是2K×8PROM,而芯片U26则是多个双输入的NOR门。本地总线控制86由芯片U3(型号82288)所提供。
主寄存器34,三字缓冲寄存器42,词缓冲寄存器50和输出寄存器56各相应地为芯片U9,U10,U11和U12;它们都是RAM  4K×4×4,其型号为2168×4.芯片U13(型号74LS175)对所有上述的四个寄存器提供开关装置。它是多个六/四D触发器。四个寄存器的读写总线控制由芯片U27(型号74LS00)所提供,它是双输入的NAND门。芯片U28(型号74LS32)是双输入的OR门,它对所有上述四个寄存器进行控制。
数据收发器88由芯片U29,U30和U33所形成。具体地说,芯片U29和U30(型号74LS245)是八位总线收发器,它们用来实现总线一数据收发器的功能;还有芯片U33(型号74LS32)是多个双输入OR门,它实现总线地址控制的作用。
地址收发器90由芯片U31,U32和U34所形成。总线-地址收发器的功能由八位线路驱动器(芯片U31和U32,型号74LS244)所提供;而母线-地址解码器的输出功能则由芯片U34所提供,其型号为74LS30,它是多个8输入NAND门。
92是地址解码装置,它由芯片U17,U35和U38以及地址开关SW(型号DIP-8)所组成。芯片U17(型号74LS139)是一具2-4解码器并实现总线控制解码器的功能。总线-地址解码器的功能由多个双输入或-非门所提供,它们是芯片U35和U36(型号74LS86)。芯片U38(型号74LS74)起总线-控制解码作用,它是多个双D触发器。
控制输出的功能由控制输出装置94所实现,这就是由PC32至分割处理机40的控制;该功能由芯片U15和U18所提供,它们的型号都是74LS374。芯片U14和U16具有相同的型号,实现一定功能的控制作用。具体地说,装置96中的控制是沿反方向,即由分割处理机40至PC32,控制数据流。
分割处理机40被预设装置98进行预先设置,后者是芯片U37(型号74LS175),它是多个触发器。
在把本发明的结构细致地揭示出来以后,现在可以来说明本路线的作用过程了。实际上,新的作用过程包括以下十个步骤。请参看图2及图3。
第一步:向PC32的存储器输入中文句子31。
第二步:由PC的存储器读出这句子的前六个字符并从线36通过数据收发器88(芯片U29,U30和U33),地址收发器90(芯片U31,U32和U34)和地址解码器92(芯片U17,U35,U36,U38和开关SW)输入主寄存器34。接着,由主寄存器向三字缓冲寄存器移三个字符。
第三步:分割处理机40于是通过线路44由三字缓冲寄存器42取出第一个字符,并在数字检测器37(芯片U20,U21,U22和U23)和数字词典35(芯片U19)中检测出数字字符。如这个数字字符被检测出来,分割处理器把它送进输出缓冲寄存器56,于是主寄存器和三字缓冲寄存器自动地重新得到补满。这一过程一直进行到所有后续的数字字符都被识别出来为止。请注意,在识别数字词时并不用到各分割规则,并且上述的数字词被直接送至输出寄存器56而不是词寄存器50。
第四步:分割处理机于是从主寄存器34取出前三个字符,其中包括在第三步中取出的字符,并把它们输入三字缓冲寄存器42;这是从线路44通过本地址收发器80(芯片U5和U6),本地地址解码器82(芯片U4),和本地总线控制86(芯片U3)来进行的。主寄存器34重新被自动地补满,因为上述的字符已由其中移走。
第五步:PC32由线路46从三字缓冲寄存器42取三个字符,这是通过数据收发器88,地址收发器90和地址解码器92来进行的。
第六步:PC32从存放在硬盘中的各词典通过软件来搜索词-模式的匹配,该软件被称之为CITAC软件,是由本发明者所提供的。CITAC软件还对被匹配词施加某些新的规则和逻辑,它接受得到匹配的结果并删去其他的。
第七步:PC把所有暂时被识别的词输入至词缓冲寄存器50;这些词只是一些候选的词,因为它们还不曾经过所有的新规则的检验。这台新机器被设计得既快又正确,已经发现在这一翻译阶段,对这些规则和逻辑的初期使用可以有效地刎除显著的错误而不致使整个过程有不适当的延长。
第八步:分割处理机40确定出正确的分段,即由存放在芯片U7和U26(它们组成装置84)中的分割程序规则和逻辑把字符组合成词;所说的规则和逻辑则在前面已经有过介绍了。
第九步:分割处理机从线路54把组合起来的相应于各词的各分段送至输出寄存器56,这是通过本地地址发送器80、本地解码器82和本地总线控制86就象第四步中一样地进行的。
第十步:PC于是通过线路57取出被识别的词以进行最后的翻译和显示。CITAC软件执行最后的翻译成目标语言的工作。显示可以采用任何一种适用的方式,诸如打印输出,屏幕显示或以语言合成器实现的语音输出。最后的输出装置以数字59来代表并与计算机32通过线路61形成电的连接。
很清楚,本发明是新的且有用的。并且,根据法律有要求作为总体考虑来说这是一项超前的技术,它是到目前为止掌握一般技巧的人所还没有搞清楚的。
这一重要的发明是中文翻译计算机的技术的先驱,它是一个显著的突破,因此,下面的权利要求被提出来作为一种法律上的广泛解释使有权利来保障本发明的核心或实质内容不受侵犯。
应该看到,上面所提的一些目的,它们通过前面的描述已被解释清楚,并且这些目的已很有成效地被达到。再者,因为对于上述的描述可能有某些不偏离本发明范围的改变,所以在前面的描述内包含的全部材料以及附图中示出的全部材料都应被解释为完全是说明性的,它们不代表某些限制。
还应有这样的理解,即下面的权利要求包括这里描述过的本发明的全部一般性专门性的特点;还应包括本发明范围的所有陈述,这个范围从语言角度来看可以说明介乎一般性和专门性之间的。
到此为止,本发明已被说明。

Claims (14)

1、一种把书写的中文字符句子翻译成另一种预先选定的非中文的目标语言的方法,它由如下的步骤所组成:
把一个中文句子的字符串输入计算机的存储器;
把第一个预先确定数量的上述字符转移入第一个寄存器,上述第一个寄存器具有预先确定的容量以存储各字符;
从上述主寄存器把第二个预先确定数量的上述字符取出并把它转移至第二个寄存器,上述第二个寄存器具有预先确定的容量以存储输入各字符;
智能地搜索一本词典以识别输入句子的字符串中的多字符词,这时被使用的是预先选定的分割程序的规则和逻辑;
把被识别的非数字词暂时地存储在一个词缓冲寄存器内;和
把被识别的数字词暂时地存储在一个输出寄存器内。
2、如权利要求1所述的方法,其特征在于词典的搜索步骤包括编制多本词典的步骤;所述多本词典,其中包括一本数字词典,一本名词词典和一本常用词词典而这里所述的智能地搜索词典的过程包括按预先规定的步骤搜索上述多本字典的过程,上述预先规定的词序列将被上述分割程序的规则和逻辑所确定。
3、如权利要求2所述的方法,其特征在于搜索上述词典的步骤包括把预先确定的分割规则和逻辑施加于上述计算机存储器中的句子的步骤以识别句子中的词以及把分组好的词放进上述输出寄存器的步骤。
4、如权利要求3所述的方法,其特征在于对上述第二个缓冲寄存器预定的容量为三个字符,并且这里所说的搜索上述多本词典的步骤包括顺次地每一次处理三个字符以在上述多本词典中搜索一个词模式的匹配。
5、如权利要求4所述的方法,其特征在于顺次地每一次处理三个字符的步骤包括一个第一个步骤,它是由上述第二个缓冲寄存器中取出一个第一字符并把该第一个字符与上述数字词典中的数字词相匹配,这里上述第一个步骤将重复进行以识别后续的数字字符。
6、如权利要求5所述的方法,其特征在于所述顺次地处理的步骤包括一个第二个步骤,它是由上述第一个寄存器取出三个字符并且把上述三个字符放进上述第二个缓冲寄存器。
7、如权利要求6所述的方法,其特征在于所述顺次地处理的步骤包括一个第三个步骤,它是从上述第二个缓冲寄存器取出上述三个字符并且做一次词模式匹配,通过使用上述分割程序的规则和逻辑以识别候选的词。
8、如权利要求7所述的方法,其特征在于顺次地处理步骤包括一个第四个步骤,它是把所有识别出来的候选词放进上述词寄存器。
9、如权利要求8所述的方法,其特征在于顺次地处理的步骤包括一个第五个步骤,它是根据上述分割程序的规则和逻辑对输入的字符串选出被识别的词。
10、如权利要求9所述的方法,其特征在于所述顺次地处理的步骤包括一个第六个步骤,它是把正确的单和多字符词送至上述输出寄存器。
11、如权利要求10所述的方法,其特征在于顺次地处理的步骤包括一个第七个步骤,它是取出上述正确的单和多字符词,翻译上述正确的单和多字符词并且把上述句子的翻译结果以上述预先选定的目标语言显示出来。
12、一种把以字符串书写的中文词翻译成非中文的目标语言的方法,由下列步骤所组成:
编制多种词典装置并且把上述的多种词典装置以数字形式存放在计算机的存储器内;
把中文句子的字符串输入上述的计算机存储器;
把上述的字符串的前六个字符转移入主寄存器;
把上述的字符串的前三个字符由上述的主寄存器转移入三字组缓冲寄存器;
如果上述三个字符的第一个字符是一个数字词,则立即把上述的第一个字符翻译出来并且把上述翻译出来的数字字符放进一个输出寄存器;
重复上述步骤,直到出现一个非数字的词;
对第一批三个字符与上述词典中的非数字词相匹配,这时使用多个预先确定的规则以对单和多字符词作出暂时的识别。
把上述暂时识别的单和多字符词放进一个词缓冲寄存器;
把其余和为数众多的上述预先确定的规则施加于上述识别出来的单字符和多字符词(它们在上述的词缓冲寄存器内),以把上述识别出来的词组合成有意义的分段;和
把组合起来的各分段放进输出缓冲寄存器。
归纳起来说,输入的字符串是按照三个连续的步骤进行翻译的:开始步骤是数字翻译(如果有数字);接下来是初步地使用一些预先确定的规则以对单字符和多字符进行暂时的翻译;最后是把所有上述预先确定的规则全部施加于上述识别出来的词以使字符串成为组合起来的分段。
13、如权利要求12所述的方法,其特征在于它还要包括把上述组合起来的分段最后翻译成目标语言的步骤,以及显示上述翻译结果的步骤。
14、如权利要求13所述的方法,其特征在于上述最后翻译结果由软件在上述计算机存储器内实现。
CN91108789A 1991-03-12 1991-09-04 中文句子的翻译方法 Expired - Fee Related CN1026927C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/667,944 1991-03-12
US07/667,944 US5224040A (en) 1991-03-12 1991-03-12 Method for translating chinese sentences

Publications (2)

Publication Number Publication Date
CN1059414A true CN1059414A (zh) 1992-03-11
CN1026927C CN1026927C (zh) 1994-12-07

Family

ID=24680317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN91108789A Expired - Fee Related CN1026927C (zh) 1991-03-12 1991-09-04 中文句子的翻译方法

Country Status (3)

Country Link
US (1) US5224040A (zh)
CN (1) CN1026927C (zh)
GB (1) GB9205483D0 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100351849C (zh) * 2004-08-25 2007-11-28 富士施乐株式会社 字符识别装置和字符识别方法
CN101419673B (zh) * 2004-04-12 2012-10-24 富士施乐株式会社 图像词典生成装置及方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
AU6018694A (en) * 1993-04-26 1994-11-21 Taligent, Inc. Text transliteration system
US5384702A (en) * 1993-09-19 1995-01-24 Tou Julius T Method for self-correction of grammar in machine translation
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
EP0702322B1 (en) * 1994-09-12 2002-02-13 Adobe Systems Inc. Method and apparatus for identifying words described in a portable electronic document
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US6002997A (en) * 1996-06-21 1999-12-14 Tou; Julius T. Method for translating cultural subtleties in machine translation
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
US7020601B1 (en) * 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
EP2336899A3 (en) 1999-03-19 2014-11-26 Trados GmbH Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
CN1302415C (zh) * 2000-06-19 2007-02-28 李玉鑑 一种英汉翻译机器的实现方法
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20100262621A1 (en) * 2004-03-05 2010-10-14 Russ Ross In-context exact (ice) matching
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
CN101075230B (zh) * 2006-05-18 2011-11-16 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8539349B1 (en) 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
US9323854B2 (en) * 2008-12-19 2016-04-26 Intel Corporation Method, apparatus and system for location assisted translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
JP5525529B2 (ja) * 2009-08-04 2014-06-18 株式会社東芝 機械翻訳装置および翻訳プログラム
US9507880B2 (en) * 2010-06-30 2016-11-29 Oracle International Corporation Regular expression optimizer
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US10102201B2 (en) * 2015-11-30 2018-10-16 Soundhound, Inc. Natural language module store
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN112085090A (zh) * 2020-09-07 2020-12-15 百度在线网络技术(北京)有限公司 翻译方法、装置以及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
US4931936A (en) * 1987-10-26 1990-06-05 Sharp Kabushiki Kaisha Language translation system with means to distinguish between phrases and sentence and number discrminating means

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419673B (zh) * 2004-04-12 2012-10-24 富士施乐株式会社 图像词典生成装置及方法
CN100351849C (zh) * 2004-08-25 2007-11-28 富士施乐株式会社 字符识别装置和字符识别方法

Also Published As

Publication number Publication date
CN1026927C (zh) 1994-12-07
GB9205483D0 (en) 1992-04-29
US5224040A (en) 1993-06-29

Similar Documents

Publication Publication Date Title
CN1026927C (zh) 中文句子的翻译方法
Hull et al. Querying across languages: A dictionary-based approach to multilingual information retrieval
US8239188B2 (en) Example based translation apparatus, translation method, and translation program
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
EP1351157A2 (en) Sentence realization model for a natural language generation system
WO2001084376A2 (en) System for answering natural language questions
CN1227657A (zh) 采用基于字典的词类概率的自然语言语法分析程序
CN111652006B (zh) 一种计算机辅助翻译方法及装置
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
Chung et al. Factors affecting the accuracy of Korean parsing
Hamdi et al. In-depth analysis of the impact of OCR errors on named entity recognition and linking
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Li et al. Towards topic-aware slide generation for academic papers with unsupervised mutual learning
CN1152337C (zh) 用于处理中文电传文件的方法和装置
Zhao et al. Leveraging pre-trained language model for summary generation on short text
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
Stamatatos et al. A practical chunker for unrestricted text
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
Nguyen et al. Example-based sentence reduction using the hidden markov model
Cardie et al. The role of lexicalization and pruning for base noun phrase grammars
Gotscharek et al. On lexical resources for digitization of historical documents
Wu et al. Learning source-target surface patterns for web-based terminology translation
JP4588657B2 (ja) 翻訳装置
CN1088011A (zh) 多文种电子文稿的模板校对方法和装置
Hull Automating the construction of bilingual terminology lexicons

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C15 Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993)
OR01 Other related matters
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee