CN1123432A - 机器翻译中的语法自纠正方法 - Google Patents

机器翻译中的语法自纠正方法 Download PDF

Info

Publication number
CN1123432A
CN1123432A CN94115919A CN94115919A CN1123432A CN 1123432 A CN1123432 A CN 1123432A CN 94115919 A CN94115919 A CN 94115919A CN 94115919 A CN94115919 A CN 94115919A CN 1123432 A CN1123432 A CN 1123432A
Authority
CN
China
Prior art keywords
rule
grammatical markers
sentence
verb
grammer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN94115919A
Other languages
English (en)
Other versions
CN1094618C (zh
Inventor
窦祖烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Citac Computer Inc
Original Assignee
Citac Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Citac Computer Inc filed Critical Citac Computer Inc
Publication of CN1123432A publication Critical patent/CN1123432A/zh
Application granted granted Critical
Publication of CN1094618C publication Critical patent/CN1094618C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

将具有第一种语法规则的被译语言的句子译成具有第二种语法规则的被译成语言的句子,其结果是译文中的句子虽含有意义但语法不正确。将语法不正确的句子转变成语法正确的句子所采用的方法包括识别被译成的、语法不正确的句子中的语法标记和语法标记类型。语法不正确句子中出现的每一语法标记查阅第一数据库中包括的语法规则。每一语法标记类型查阅第二数据库中包括的自纠正规则。纠正方案应用这些语法规则和自纠正规则。结果使句子大体上语法正确。

Description

机器翻译中的语法自纠正方法
本发明总的来说涉及改进用机器进行翻译的语法的方法。
不同的语言遵循不同的语法规则。所以,如果翻译人员不遵循被译成语言的所有语法规则的话,需要翻译的语言(即被译语言)的良好语法结构在被翻译成被译成的语言以后,就会变得文理不通。
因此,为了确保最终译文语法正确,在进行机器翻译时,机器必须知道被译语言和被译成语言的语法规则。然而,语法规则如此之多,使得人们达到这样一个共识,即机器翻译总是在语法上不那么完善。
美国、日本、中华人民共和国、中国台湾、加拿大、新加坡以及香港的研究人员对把汉语译成英语以及其他被译成语言这一问题已经研究了近三十年。从而取得了四种翻译方法。
第一种方法是,一句中文句子中的每一个汉字在被译成语言中被译成这个汉字的对应词;从而正如众所周知的那样,其结果是谬误百出。
第二种方法是产生洋泾浜英语,说英语的人能够理解这种支离破碎的语言,但在这种支离破碎的语言中却充满了蹩脚并且不常用的英文表述。这种翻译方法比起第一种方法要好得多,但这种方法仍然不能为人们所接受,因为这需要使用者用英语语法和句法修改译文,才能使译文完善。
第三种方法是简单地将优美的英文句子事先存储在一个存储器内,然后在识别具有相同意义的中文句子时再产生所述的存储在机器中的英文句子。这种装置可以用来把一个中文菜单中的词目转译成精炼的英语,将经常重复的汉语表达转译成精炼的英语,等等。这种装置对经常需要翻译的旅行者和学生比较实用,但是这种翻译机器总的来说还是不太实用,因为实际上每一每语言含有大量的不同句子。
本发明人持有的美国专利号为5,224,040,标题为“中文句子的翻译方法”的专利文献以及本发明的公开的CITAC机器翻译机是第四种方法,采用这种方法的翻译机能够提供含义准确、非洋泾浜型译文以及优美、语法正确的句子。
在构思本发明的时候,从总体考虑现有技术的角度来看,如何制作改进的第四种类型的翻译机对本领域的普通技术人员来说是非显而易见的。
本发明开始时恰好是本发明人的前一发明结束时。更确切地说,上述专利在世界上第一次公开了一种将中文翻译成被译成语言的机器和方法。与把中文译成被译成语言的早期机器成鲜明的对比,所述早期机器和方法含有把试图将中文词语译成被译成语言的、现有技术的装置所产生的不成意思的词语删除掉的新部件和新方法。早期发明的核心在于一种从一串中文汉字中检测中文词语的极其新颖的方法;这种方法包括将汉字输入到一缓冲器、从而形成各种组合,直至检测出真正有意义的词语的步骤。这种机器和方法产生的最终译文在被译成语言中意义是明确的,不会有无意义的词,也不会是洋泾浜英文,但却会有语法错误,这是因为没有对译文进行最终语法校正的装置。
所以,本发明提供了一种把早期机器和方法产生的最终译文转变成语法正确的译文的新颖方法。
本发明的核心在于注意到在翻译阶段删除语法错误是极其困难并且不切实际的,还在于发明最好在翻译过程中已经产生有意义的句子以后再纠正语法错误。所以,CITAC机器的最终产物是本文所揭示的新颖语法纠正方法开始点。
本发明的另一个发明点在于发现可以对句子进行分析,并且发现句子含有语法标记及语法标记类型。例如,对代词要加上一种语法标记,因为当把代词从中文译成被译成语言时,可以产生许多种译文。在书面汉语中是不区分代词的格位的,一个发音为“Wǒ”的简单汉字,其意义可以是“我(主格)”、“我(宾格)”、“我的(所有格)”、“我的(物主代词)”;另一个发音为“Nǐ”的汉字,其意义可以是“你(主格)”、“你的(所有格)”或者“你的(物主代词)”;与此类似,单词“Tā”的意义可以是“他(主格)”、“他(宾格)”、“他的(所有格)”、“她(主格)”、“她(宾格)”或“他的(物主代词)”。这种语意的含混不清不容被机器区分,因为如上所述,被译书面语句并不区分上述代词的各种格位用法。
因此,当早期的机器产生带有英语代词(或者在其他区分代词格位的被译成语言中的代词)的句子时,本机器将代词与语法标记联系起来。换言之,因为最终句子中出现的英语代词表示由于在书面汉语原文句子中不会给出一个代词在最终译文中应该是什么格位,因而在最终的句子中出现的英语代词表示它可能导致语法错误,所以升起“红旗”。
类似地,汉语也不区分别名词的单数和复数。所以,“三本书”在汉语中的语法是完全正确的。因此,名词前的数字大于最终译文中的数字一时,再次升起“红旗”,表示最终译文的语法可能不正确。
本发明中采用了许多语法标记和语法标记类形,以提醒机器需要对被译词语进行进一步处理,从而使译文语法正确。当遇到语法标记时,机器查询第一个数据库,搜寻遇到那些具体语法标记时应该运用的合适语法规则。当遇到语法标记类形时,机器查询第二个数据库,搜寻遇到那些具体语法标记类形应该运用的合适自纠正规则。所述第二个数据库中的所述自纠正规则然后进行所需的纠正。其结果使被译成语言中的句子语法正确。
应当清楚的是,如果被译语言的语法规则与被译成语言语法规则相同,则无需使用本发明。
本发明的首要发明点在于,在被译语言的语法规则与被译成语言的语法规则不相同时,提供一种被译成语言语法正确的句子的方法。
本发明的更具体的发明点在于揭示一种将一种被译句子中的特定词和词的组合相联系,分别作为语法标记和语法标记类型,表示需进一步采用一些步骤,以确保译文语法正确。
同时本发明的目的也在于揭示自动进行必要纠正的方法。
更确切地说,本发明的目的在于提供一种根据被译句子中出现的用作语法标记的代码而搜寻恰当语法规则的装置,以及根据所述句子中出现的语法标记类型而进行恰当自纠正规则的装置。
本发明的这些以及其他重要目的、特征及优点将随着本说明书内容的展开而逐步清楚。
因此,本发明所含有的结构特征、元件组合以及部件结构在后文的结构实施例中加以描述。本发明范围将以权利要求加以限定。
为了对本发明的本质及目的有一较完整的理解,下面对所附附图作一详细描述。
图1是相对于早期机器的新方法以及本发明人提供的新方法的方框图;
图2是本发明的语法自纠正方法的系统结构方框图;
图3是本发明自纠正系统设计的更详尽方框图。
参见图1,本发明人的这一早期发明以及本发明所构成的组合系统以标号10作为一个整体表示。第一个发明的翻译机即为市场上所熟知的CITAC翻译机用标号12表示。翻译机在11处接收被译语言的句子,并在13处把这些句子翻译为有意义的被译成语言,但这些句子可能仍含有语法错误。本发明人1991年3月12日申请的、序号为07/667,994、标题为中文句子的翻译方法”、现为美国专利号为5,224,040的专利文献所揭示的内容与本发明揭示的内容合并作为本发明公开内容的基础。然而,在无需参考早期公开内容的情况下,从本发明的公开内容可以对本发明有一更完整的理解。
本发明的语法自纠正方法用标号14表示,且与规则库16相连。方法14的步骤对CITAC翻译机12的结果进行精练,即参照规则库16将句子13改写成语法正确的句子15。更具体地说,句子13中出现的语法标记或者语法标记类型由方框14中的装置检测,并起动规则库16的应用,产生语法上正确的句子15。与英语单词相关联的语法标记的结合构成语法标记类型(grammar marckerpattern)。
系统的更详细结构见图2所示,系统结构在整体上以标号20表示。有意义的但可能有语法错误的句子13称为粗译文(raw trans-lation)。语法正确的句子称为“精炼句子(refined sentence)”,表示句子中基本上不含语法错误。粗译文13中的语法标记和语法标记类型用标号22表示。规则选择方框24是纠正方案方框14的一部分,图中用连线25表示,语法标记和语法标记方框26为规则库16的一部分,图中用连线27表示。
如上所述,汉语不区分代词的格,也不区分名词的单、复数。另外,汉语中没有单数形态的动词,没有时态变化,没有进行式语态,没有被动态动词形式,没有形容词和副词比较级的变化,没有形容词和副词最高级的变化,没有与英语定冠词“the”相对应的定冠词,没有冠词“一”的变化形态。这样,本发明的一个重要发明点在于,在把汉语句子翻译成一含有意义的英文句子的时候,必须检查所述英文句子,看其是否存在诸如被动态之类的、在汉语原文句子中所没有的其他英语特征。如果在被译句子中检测到诸如被动态动词、比较级形容词之类的情况时,就用语法标记标记出来作为识别。更具体地说,对被译(还不是精练)句子中的每一语法标记给出一数值。一组语法规则与每一个语法标记相联系,一组自纠正规则与每一个语法标记类型相联系,这些规则用来产生最终精练句子。所有规则保留在规则库16中。
更具体地说,如果汉语是被译语言,而英语是被译成语言,则有下述语法标记:
代词标记
00    代词格位规则
01    作为形容词的物主代词
02    作为名词的物主代词
03    宾格
04    人称代词规则
05    现在时动词“be”的规则
06    过去时动词“be”的规则
07    现在时动词“have”的规则
08    过去时动词“have”的规则复数名词标记
10    复数名词转换规则单数名词主语(简记为SNS)标记
20    单数形式动词转换规则
21    现在时
22    过去时时态标记
30    时态转换规则,规则和不规则
31    现在时
32    过去时(包括助动词)
33    完成时进行式语态标记
40    现在分词转换规则被动态标记
50    被动态规则
51    现在被动态规则
52    过去被动态规则
53    现在完成时被动态规则
54    过去完成时被动态规则副词标记
60    副词转换规则比较级方式标记
70    比较级方式规则
71    比较级转换规则
72    最高级转换规则冠词插入和纠正标记
80    词ONE的纠正规则
81    冠词THE的纠正规则介词使用标记
90    介词使用规则
91    名词后跟介词的规则
92    形容词和分词后跟介词规则
93    动词后跟介词规则
94    副词后跟介词的规则
上述语法标记表中的术语“规则”本文中指语法规则或GR。
术语“自纠正规则(SCR)”指下述规则:
1.如果粗译文13中的GM和GMP为PN(OX),X=1,2或3,从规则库16中选择代词格位规则,并取出恰当的代词来取代粗译句子13中的PN。
2.(a)如果粗译文13中的GM和GMP是PN+动词be(05/06),从规则库16中选择人称代词规则(05/06),并取出恰当的动词“be”,取代粗译句子13中的动词“be”。
(b)如果粗译文13中的GM和GMP是PN+动词have(07/08),从规则库16中选择代词人称规则(07/08),并取出恰当的动词“have”代替粗译句子13中的动词“have”。
3.如果粗译句子13中的GM和GMP为N(10),从规则库16中选择复数名词转换规则,并取出恰当复数名词,代替粗译句子13中的名词N。
4.如果粗译句子13中的GM和GMP为SNS(20)+V(21),则从规则库16中选择单数形式动词,并取出恰当动词,代替粗译句子13中的动词V。
5.如果粗译句子13中的GM和GMP为V(32),则从规则库16中选择时态转换规则,并从规则动词和不规则动词表中取出恰当动词(过去时)取代粗译句子13中的动词V。
6.如果粗译句子13中的GM和GMP是V(33),则从规则库16中选择时态转换规则,并取出恰当动词(完成时)取代粗译句子13中的动词V。
7.如果粗译句子13的GM和GMP是V(40),则从规则库16中选择现在分词转换规则,并取出恰当的动词现在分词转换规则,取代粗译句子13中的动词V。
8.(a)如果粗译句子13中的GM和GMP是AV(助动词)+be/have been+V(33),则从规则库16中取出时态转换规则,并取出恰当的过去分词,取代粗译句子13中的动词V。
(b)如果粗译句子13中的GM和GMP是PN+be(05/06)+V(33),则从规则库16中选择代词的人称规则和时态转换规则30。取出恰当的动词be和恰当的过去分词,分别取代粗译句子13中的be和动词V。
(c)如果粗译句子13中的GM和GMP是PN+have(07/08)been+V(32),则从规则库16中选择代词的人称规则(04)和时态转换规则(30)。取出恰当的动词have和恰当的过去分词,分别取代粗译句子13中的“have”和动词V。
(d)如果粗译句子13中的GM和GMP是N(10)+be(51/52)+V(33),则运用规则3,并从规则库16中选择被动语态规则(50)及时态转换规则(30)。取出恰当的动词be和恰当的过去分词,分别取代粗译句子13中的be和动词V。
(e)如果粗译句子13中的GM和GMP是N(10)+havebeen(53/54)+V(33),则运用规则3,且从规则库16中选择被动语态规则50和时态转换规则(30)。取出恰当的动词have和恰当的过去分词,分别取代粗译句子13中的“have been”和动词V。
9.如果粗译句子13中的GM和GMP是A(60),则从规则库16中选择副词转换规则,并取出恰当的副词,取代粗译句子13中的形容词A。
10.如果粗译句子13中的GM和GMP是A(71),则从规则库16中选择比较级转换规则,并取出恰当的比较级形容词,取代粗译句子13中的形容词A。
11.如果粗译句子13中的GM和GMP是A(72),则从规则库16中选择最高级转换规则,并取出恰当的最高级形容词,取代粗译句子13中的形容词A。
12.如果原译文中的GM和GMP是ONE(80)+N/A,检查名词或形容词的第一个字母。
(a)如果名词或者名词短语的第一个字母是一个辅音,或者如果开始三个字母是“uni”,则用“a”取代粗译句子13中的“one”,除非有例外。
(b)如果名词的第一个字母是一个元音,则用“an”取代粗译句子13中的“one”,除非有例外。
语法自纠正过程自从带有语法错误的粗译句子中把语法标记(GM)和语法标记类型(GMP)分别读入缓冲寄存器,如图3所示。GM和GMP用来打开图2所示的规则库16,或者图3所示的数据库36和数据库44。然后,语法正确的词被取出,并被替换到粗译句子中去。
系统结构的更详尽描述见图3所示,并且整体上以标号30表示。语法不正确的句子13被输入到粗译文缓冲存储器32内;这些句子包括语法标记(GMs)和语法标记类型(GMPs)。然后从RT缓冲存储器中搜寻这些GMs和GMPs,并将这些GMs和GMPs分别输入到关键匹配(KM)缓冲寄存器(Key Match buffer,)34和类型匹配(PM)缓冲寄存器42。KM缓冲存储器34中的GMs打开控制数据库36的相应门。换言之,KM缓冲存储器中的GM就好象是一把打开要输入到纠正方案40的、与GR有关的门的钥匙。GMs用来提供进行纠正的数据库36的必要工具。类似地,PM缓冲存储器42中GMPs打开控制数据库44的相应门。换言之,PM缓冲存储器的GMP就好象是用来打开输入到纠正方案40的、与SCR相关联的门的钥匙。这些GMPs用来提供运用GRs来作纠正的指令的。
因此,应该理解的是,新方法的这一步骤的KM缓冲存储器34和PM缓冲存储器42的内容分别在于RT缓冲存储器32的GMs和GMPs。这些GMs和GMPs分别用作打开恰当门38和门46的钥匙。
还应该理解的是,GM是GR的标签,GMP是SCR的标签。这些标签用来从数据库中取出所要求的规则。
GMs打开所要求的门38,所要求的GR被允许通过达到纠正方案装置40的所述门。纠正方案40和数据库36之间的所有门合起来用标号38表示,但是应该理解的是,所述门为分立门,正如图中线段41和43所表示的那样。将门设计成用来控制纠正方案40的特定规则流程。线路39使KM34能够到达所述门38,线路41将所述数据库36和所述门连接在一起,并且当所述门38被上述KM缓冲存储器的上述GMs打开时,输出路线43将GRs输入到纠正方案装置40。
然后,从所述RT缓冲存储器32中取出RT缓冲存储器32中的GMPs,并将它输入到类型匹配(PM)缓冲存储器42内。上述自纠正规则(SCRs)被储存在数据挡案库44(本文中称作数据库44)内;通过打开的门46从数据库44取出所述SCRs。当PM缓冲存储器42的内容打开相应的门46时,适当的自纠正规则通过此门进入纠正方案40。导线47将PM缓冲存储器42与所述门46连接在一起,导线49将数据库44与所述门连接在一起,当所述门46被PM缓冲存储器的GMPs打开时,适当的自纠正规则通过导线51被输入到纠正方案装置40。
这样,纠正方案装置的内容现在是数据库36的语法规则(GR)以及数据库44的自纠正规则(SCR)。(再有,两个数据库都在规则库16内)。SCRs进行所需的纠正,并因此控制纠正方案装置40的运行,即,所述SCRs告诉所述装置40做什么,以及该怎样做;其如果是精练句子15,即一句语法正确的句子。换言之,第一个数据库36提供工具,即进行纠正所需要的GRs。然后,第二个数据库44应用GRs和SCRs,提供进行所需纠正的指示。进行纠正在装置40内进行。当然,应该理解的是,为方便说明起见,数据库的这种分法是概念化的,即,上述两种数据库都做在计算机装置的硬盘内,并用图2中的规则库16表示。
下面举例说明如何应用这些规则:
例子Mr.Wang(20)come(21)to visit he(03).Mr.Wang comes to visit him.           规则4和规则1He buy(32)three book(10)yesterday.    规则5和规则3He bought three books yesterday.This(20)be(21)he(01)kook.             规则4和规则1This is his book.He be(05)one(80)foreign student.      规则2a和规则12aHe is a foreign student.He eat(33)two peach(10).              规则6和规则3He has eaten two peaches.He like(21)to read novel(10).         规则4和规则3He likes to read novels.He have(21)leave(33)Taiwan.           规则4和规则6He has left Taiwan.He be(21)sing(40).                    规则4和规则7He is singing.This task will be complete(33).This task will be completed.          规则8aThat fish be(52)eat(33)by one(80)white cat.That fish was eaten by a white cat.   规则8d和规则12aHe be(06)praise(33).He was praised                        规则8b.He have(08)been expel(33).He had been expelled.                 规则2b和规则8cThis book be(52)take(33)by he(03)yester-day.This book was taken by him yesterday. 规则8d和规则1This cup have been(53)break(33)by he(03).This cup has been broken by him.      规则8c和规则1He run(10)quick(60).He runs quicky.                       规则3和规则9He be(05)tall(71)than his brother.He is taller than his brother.        规则2a和规则10He be(21)the old(72)in this group.He is the oldest in this group.       规则4和规则11He see(32)one(80)American yesterday.He saw an American yesterday.         规则5和规则12bHe see(32)one(80)snake in the garden.He sew a snake in the garden.         规则5和规则12a
再看下面的例子:RT:This(20)be(21)he(01)book.
规则是20,21,01,这些规则是取出下述GRs门的钥匙:
(01)作为形容词的物主代词
(20)单数形式动词转换规则
(21)现在时
GMPs是SNS(20)+V(21),且是SCR4,
      PN(OX),是SCR1。
它们是打开汲取SCR4和SCR1的门的钥匙。这些SCRs告诉装置40使用GR20和GR21来把“be”改为“is”,用GR(01)把“he”改为“his”。
因此,自纠正方案就把
                  This be he book.转变为
                  This is his book.
十分清楚,本发明既新颖又有用。另外,在整体考虑现有技术所需要的规律时,本发明方法对仅掌握一般技术的人员来说,并不是显而易见的。
本发明在将具有语法错误的句子自动地转变为语法正确的句子方面是首创。并且,后文的权利要求以一种规律形式作广泛的说明,从而防止了盗用本发明的核心部分和精髓。
因此,可以看出,可以有效地获得上述发明目的,并且,因为在不偏离本发明的范围的情况下,可以对上述结构作各种变异,所以,上文对结构的描述所包含的内容以及附图中所揭示的内容仅作描述之用,而不应视为对本发明的限制。
同时还应理解的是,后文的权利要求书试图包含本发明所描述的所有普通的和特殊的特征,并且本发明范围的所有表述,就语言而言,应该可以说包含在本发明的范围内。
至此,本发明的描述已毕。

Claims (41)

1.一种把语法不正确的句子转变成语法正确的句子的方法,其特征在于,它包含下述步骤:
定义多个代码,用作语法标记;
定义多个语法标记类型;
将可能含有语法错误的句子输入到一粗译文缓冲存储器内;
在所述句子中,如果有的话,则识别一个语法标记或多个语法标记,以及一语法标记类型;
将任一识别的语法标记输入到一关键匹配缓冲存储器内;
为语法规则提供一第一数据库,并在所述第一数据库内,为每一所述语法规则保存一个唯一的语法标记;
提供一纠正方案装置;
在所述纠正方案装置和所述语法规则的第一数据库之间提供多个门;
将所述关键匹配缓冲存储器和所述多个门连接起来;
将所述语法规则的第一数据库和所述多个门相连;
将关键匹配缓冲存储器中的语法标记与语法规则的第一数据库中的语法标记进行比较,当与语法规则匹配时,打开所述多个门;
当所述门打开时,将从所述语法规则的第一数据库中取出的语法规则输入到所述纠正方案装置中;
提供一个含有自纠正规则的第二数据库;以及
纠正带有语法错误的句子,方法是,从所述第二数据库中取出自纠正规则,并把所述自纠正规则应用于所述句子,从而产生一句大体上不含语法错误的句子。
2.一种把语法错误的句子转变成语法正确的句子的方法,其特征在于,它包含下述步骤:
定义多个代码,用作语法标记;
定义多个语法标记类型;
将可能带有语法错误的句子输入到一粗译文缓冲存储器内;
如果有的话,则在所述句子中识别一语法标记或多个语法标记;
如果有的话,则在所述句子中,识别一语法标记类型或多个语法标记类型;
将识别的语法标记输入到一关键匹配缓冲存储器内;
提供一含有语法规则的第一数据库和自纠正规则的第二数据库的规则库,并在所述数据库中存有每一个所述语法规则的唯一语法标记;
提供一纠正方案装置;
在所述纠正方案装置和所述语法规则的第一数据库之间提供基本复数门;
将所述关键匹配缓冲存储器与所述基本复数门连接在一起;
将所述语法规则的数据库与所述基本复数门相连;
将关键匹配缓冲存储器中的语法标记与语法规则的第一数据库中的语法标记进行比较,并且当语法规则匹配时,打开所述基本复数门;
当所述基本复数门打开时,将从所述语法规则的第一数据库取出的语法规则输入到所述纠正方案装置;
将任一识别的语法标记类型输入到一类型匹配缓冲存储器;
在所述纠正方案装置和所述自纠正规则的第二数据库之间提供第二复数门;
将所述类型匹配缓冲存储器与所述第二复数门相连;
将所述自纠正规则的第二数据库和所述第二复数门相连;
将类型匹配缓冲存储器中的语法标记与自纠正规则第二数据库中的语法标记类型进行比较,并且当自纠正规则匹配时,打开所述第二复数门;
当所述第二复数门打开时,将从所述自纠正规则第二数据库取出的自纠正规则输入到所述纠正方案装置中;以及
纠正具有语法错误的句子,方法是,把所述取出的语法规则和所述取出的自纠正规则用于所述句子,从而产生大体上不含语法错误的句子。
3.如权利要求2所述的方法,其特征在于,所述多个语法标记的语法标记是一个代词标记。
4.如权利要求3所述的方法,其特征在于,所述语法标记规则中的数据库包括物主代词用作形容词时的代词格位规则、物主代词用作名词时的规则、代词用作宾格时的规则、代词的人称规则、现在时动词be的规则、过去时动词be的规则、现在时动词have的规则以及过去时动词have的规则。
5.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记还包括一个复数名词标记。
6.如权利要求5所述的方法,其特征在于,所述第一数据库中包括复数名词转换规则。
7.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记是一个单数名词主语标记。
8.如权利要求7所述的方法,其特征在于,所述第一数据库包括单数形式动词转动规则,现在时中使用单数名词主语的规则以及过去时中使用单数名词主语的规则。
9.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括一时态标记。
10.如权利要求9所述的方法,其特征在于,所述第一数据库包括规则及不规则时态转换规则、使用现在时动词的规则、使用过去时动词的规则,包括助动词,以及完成时动词的规则。
11.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括进行时态标记。
12.如权利要求11所述的方法,其特征在于,所述第一数据库包括现在分词转换规则。
13.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括一被动态标记。
14.如权利要求13所述的方法,其特征在于,所述第一数据库包括被动态规则、现在时被动态规则、过去时被动态规则、现在完成时被动态规则以及过去完成时被动态规则。
15.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括一副词标记。
16.如权利要求15所述的方法,其特征在于,所述第一数据库中包括副词转换规则。
17.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括一比较级标记。
18.如权利要求17所述的方法,其特征在于,所述第一数据库包括比较级规则、比较级转换规则以及最高级转换规则。
19.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括一冠词插入及纠正标记。
20.如权利要求19所述的方法,其特征在于,所述第一数据库包括冠词“one”的转换规则以及冠词“the”的转换规则。
21.如权利要求2所述的方法,其特征在于,所述多个语法标记中的一个语法标记包括一介词使用标记。
22.如权利要求21所述的方法,其特征在于,所述第一数据库包括介词使用规则、名词后跟介词的规则、形容词和分词后跟介词的规则、动词后跟介词的规则以及副词后跟介词的规则。
23.如权利要求2所述的方法,其特征在于,它还包括取出恰当代词取代语法错误句子中的不恰当代词的步骤,其方法是,如果在所述语法不正确的句子中语法标记和语法标记类型是用作形容词的物主代词、用作名词的代词或者宾格代词时,则从所述规则库中选择代词格位规则。
24.如权利要求2所述的方法,其特征在于,它还包含取出恰当动词be取代所述语法不正确句子中的“be”的步骤,方法是,如果在所述语法不正确的句子中的语法标记和语法标记类型是代词加上“be”时,则从所述规则库中选择一代词的人称规则。
25.如权利要求2所述的方法,其特征在于,它还包含取出一个恰当的动词have以取代所述语法不正确句子中的“have”的步骤,其方法是,如果在所述语法不正确的句子中的语法标记和语法标记类型是一个代词加上“have”时,则从所述规则库中选择一代词的人称规则。
26.如权利要求2所述的方法,其特征在于,它还包含取出一个恰当的复数名词以取代所述语法不正确句子中的名词的步骤,其方法是,如果在所述语法不正确的句子中的语法标记和语法标记类型是一个复数名词标记时,则从所述规则库中选择复数名词转换规则。
27.如权利要求2所述的方法,其特征在于,它还包含下述步骤,如果在所述语法不正确的句子中的语法标记和语法标记类型是一个单数名词主语标记加上一个现在时动词时,则从所述规则库中选择单数形式动词规则,并取出一个恰当动词取代所述语法不正确句子中的动词。
28.如权利要求2所述的方法,其特征在于,它还包含下述步骤,如果在所述语法不正确的句子中的语法标记和语法标记类型是一个过去时态动词时,则从所述规则库中选择时态转换规则,并从规则和不规则动词表中取出恰当的过去时动词取代所述语法不正确句子中的动词。
29.如权利要求2所述的方法,其特征在于,它还包括下述步骤:如果在所述语法不正确的句子中的语法标记和语法标记类型是一个完成态动词时,则从所述规则库中选择时态转换规则,并取出一个恰当的完成态动词取代所述语法不正确句子中的动词。
30.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确句子中的语法标记和语法标记类型是一个动词现在分词时,则从所述规则库中选择现在分词转换规则,并取出所述动词的恰当现在分词,取代所述语法不正确句子中的动词。
31.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确句子中的语法标记和语法标记类型是助动词加上be/have been加上一个完成时态动词时,则从所述规则库中选择时态转换规则,并取出恰当的过去分词,取代所述语法不正确的句子中的动词。
32.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确的句子中的语法标记和语法标记类型是一个代词加上“be”再加上一个完成时态动词时,则从所述规则库选择代词的人称规则和时态转换规则,并取出恰当的动词be和恰当的过去分词,分别取代所述语法不正确句子中的“be”和动词。
33.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确句子中的语法标记和语法标记类型是一个代词加上“have been”再加上一个完成时动词时,则从所述规则库中选择代词的人称规则以及时态转换规则,并取出恰当的动词have和恰当的过去分词,分别取代所述语法不正确句子中的“have”和动词。
34.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确句子中的语法标记和语法标记类型是一个复数名词加上“be”再加上一个完成时动词时,则可运用GR50、GR30和SCR8(d),从所述规则库中选择被动态规则和时态转换规则,取出恰当的动词be和恰当的过去分词,分别取代所述语法不正确句子中的“be”和动词。
35.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确的句子中的语法标记和语法标记类型是一个复数名词加上“have been”再加上一个完成时动词的话,则可运用GR50、GR30、SCR 8(e),从所述规则库中选择被动态规则及时态转换规则,并取出恰当的动词have和恰当的过去分词,分别取代所述语法不正确句子中的“have been”和动词。
36.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确的句子中的语法标记和语法标记类型是一个副词的话,则从所述规则库中选择副词转换规则,并取出恰当的副词,取代所述语法不正确的句子中的形容词。
37.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果在所述语法不正确句子中的语法标记和语法标记类型是一个比较级副词时,则从所述规则库中选择比较级转换规则,取出恰当的比较级形容词,取代所述语法不正确句子中的形容词。
38.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果所述语法不正确的句子中的语法标记和语法标记类型是一个最高级副词,从所述规则库中选择最高级转换规则,并取出恰当的最高级形容词,取代所述语法不正确句子中的形容词。
39.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果所述语法不正确的句子中的语法标记和语法标记类型是“one”加上一个名词或一个形容词时,检查名词或形容词的第一个字母。
40.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果名词或名词短语的第一个字母是一个辅音,或者如果开头的三个字母是“uni”,则用“a”代替所述语法不正确的句子中的“one”。
41.如权利要求2所述的方法,其特征在于,它还包含下述步骤:如果名词的第一个字母是一个元音,则用“an”代替所述语法不正确句子中的“one”。
CN94115919A 1993-09-15 1994-09-15 机器翻译中的语法自纠正方法 Expired - Fee Related CN1094618C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/122,253 1993-09-15
US08/122,253 US5384702A (en) 1993-09-19 1993-09-19 Method for self-correction of grammar in machine translation

Publications (2)

Publication Number Publication Date
CN1123432A true CN1123432A (zh) 1996-05-29
CN1094618C CN1094618C (zh) 2002-11-20

Family

ID=22401610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94115919A Expired - Fee Related CN1094618C (zh) 1993-09-15 1994-09-15 机器翻译中的语法自纠正方法

Country Status (3)

Country Link
US (1) US5384702A (zh)
CN (1) CN1094618C (zh)
TW (1) TW358912B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452025C (zh) * 2002-06-28 2009-01-14 微软公司 自动检测文件中搭配错误的系统和方法
CN102789504A (zh) * 2012-07-19 2012-11-21 姜赢 一种基于xml规则的中文语法校正方法与系统
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN112036135A (zh) * 2020-11-06 2020-12-04 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720106A3 (en) * 1994-12-28 1997-07-23 Canon Kk Device and method for generating natural language information from information defined by concepts
US6002997A (en) * 1996-06-21 1999-12-14 Tou; Julius T. Method for translating cultural subtleties in machine translation
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
US6446036B1 (en) * 1999-04-20 2002-09-03 Alis Technologies, Inc. System and method for enhancing document translatability
US7107205B2 (en) * 2000-04-03 2006-09-12 Xerox Corporation Method and apparatus for aligning ambiguity in finite state transducers
US20020063691A1 (en) * 2000-11-30 2002-05-30 Rich Rogers LCD and active web icon download
US6866510B2 (en) * 2000-12-22 2005-03-15 Fuji Xerox Co., Ltd. System and method for teaching second language writing skills using the linguistic discourse model
US20020103632A1 (en) * 2001-01-31 2002-08-01 International Business Machines Corporation Method, program, and tool for updating the national language versions of documents
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine
US8909595B2 (en) 2001-08-01 2014-12-09 T-System, Inc. Method for entering, recording, distributing and reporting data
WO2004055691A1 (ja) * 2002-12-18 2004-07-01 Ricoh Company, Ltd. 翻訳支援システムおよびそのプログラム
US20040193400A1 (en) * 2003-03-24 2004-09-30 Mcdonald David D. Method and system for producing cohesive phrases from fixed phrases in a natural language system
US8078451B2 (en) * 2006-10-27 2011-12-13 Microsoft Corporation Interface and methods for collecting aligned editorial corrections into a database
TWI457868B (zh) * 2008-03-12 2014-10-21 Univ Nat Kaohsiung 1St Univ Sc 機器翻譯譯文之自動修飾方法
US8380485B1 (en) * 2009-08-13 2013-02-19 The United States Of America As Represented By The Director, National Security Agency Device for and method of language processing
TWI613554B (zh) * 2017-03-24 2018-02-01 Zhuang Shi Cheng 翻譯輔助系統

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61184685A (ja) * 1985-02-12 1986-08-18 Hitachi Ltd 翻訳情報追加方法
JP2732563B2 (ja) * 1986-05-20 1998-03-30 株式会社東芝 機械翻訳方法及び装置
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
JPS63305463A (ja) * 1987-06-05 1988-12-13 Hitachi Ltd 自然言語処理方式
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
JPH02240769A (ja) * 1989-03-14 1990-09-25 Canon Inc 自然言語文生成装置
US5289375A (en) * 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
US5224040A (en) * 1991-03-12 1993-06-29 Tou Julius T Method for translating chinese sentences

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452025C (zh) * 2002-06-28 2009-01-14 微软公司 自动检测文件中搭配错误的系统和方法
CN102789504A (zh) * 2012-07-19 2012-11-21 姜赢 一种基于xml规则的中文语法校正方法与系统
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN106776549B (zh) * 2016-12-06 2020-04-24 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN112036135A (zh) * 2020-11-06 2020-12-04 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置
CN112036135B (zh) * 2020-11-06 2021-03-02 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置

Also Published As

Publication number Publication date
CN1094618C (zh) 2002-11-20
US5384702A (en) 1995-01-24
TW358912B (en) 1999-05-21

Similar Documents

Publication Publication Date Title
CN1094618C (zh) 机器翻译中的语法自纠正方法
US5640575A (en) Method and apparatus of translation based on patterns
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1135485C (zh) 利用计算机系统的日文文本字的识别
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
CN1143769A (zh) 处理中文文本的系统和方法
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
CN101065746A (zh) 文件自动丰富的方法和系统
CN1618064A (zh) 翻译方法、已翻译句子的输入方法、记录介质、程序与计算机设备
Aduriz et al. EUSLEM: A lemmatiser/tagger for Basque
CN105320650B (zh) 一种基于语料匹配和语法分析的机器翻译方法及其系统
CN101079268A (zh) 进行手语合成与显示的系统和方法
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
WO1997040452A1 (en) Automated natural language translation
Vandeghinste et al. METIS-II: machine translation for low resource languages
CN1114165C (zh) 中文文本中的字词分割方法
McEnery et al. Multilingual resources for European languages: contributions of the CRATER project
Prinsloo et al. Creating word class tagged corpora for Northern Sotho by linguistically informed bootstrapping
Nejja et al. Context's impact on the automatic spelling correction
JP2010152420A (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Pavlović-Lažetić et al. Towards full lexical recognition
CN1302415C (zh) 一种英汉翻译机器的实现方法
Deksne et al. Towards the Development of Language Analysis Tools for the Written Latgalian Language
Blum Techniques for automatic normalization of orthographically variant Yiddish texts

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee