WO2015062284A1

WO2015062284A1 - 自然表达处理方法、处理及回应方法、设备及系统

Info

Publication number: WO2015062284A1
Application number: PCT/CN2014/079945
Authority: WO
Inventors: 余自立
Original assignee: 茵鲁维夫有限公司; 余自立
Priority date: 2013-10-28
Filing date: 2014-06-16
Publication date: 2015-05-07
Also published as: ZA201603638B; US9753914B2; US9760565B2; EP3062239A1; RU2016120612A; RU2672176C2; CN105723362B; HK1223164A1; CN103593340A; CA2929018A1; CA2929018C; KR20160077190A; IL245322B; US20160275075A1; IL245322A0; CN105723362A; JP2017503282A; CN103593340B; CA3011397A1; JP6182272B2

Abstract

本发明公开了一种自然表达处理方法，包括：对于来自用户的自然表达进行识别，得到计算机可处理的某种形式的语言信息；以及将识别得到的语言信息转换为编码形式的标准表达。根据本发明实施例的自然表达处理方法，可以将自然表达转换为编码化的标准表达，由于该标准表达的转换是将自然表达的语义转换为编码和参数，而无需精确的逐字翻译，因此可以降低机器翻译的精准度要求，同时降低用于实现表达转换（机器翻译）的数据库的复杂度，提高数据查询和更新速度，从而提高智能处理的性能。另一方面，相对简单的编码化表达，也可以减少人工辅助干预的工作量，提高人工辅助干预的工作效率。

Description

自然表达处理方法、处理及回应方法、设备及系统技术领域

本发明涉及一种信息处理方法，具体而言，涉及一种对于人类自然表达的处理方法，对于该自然表达的处理及回应方法以及应用该处理及回应方法的信息处理设备和信息处理系统。背景技术

机器翻译（MT， Machine Translation, 俗称"机翻"）属于计算语言学

( Computational Linguistics )的范畴，其利用计算机程序将文字或语音表达从一种自然语言翻译成另一种自然语言。从某种意义上，实现了不同自然语言间的词汇替换。进一步，通过使用语料库技术，可实现更加复杂的自动翻译，更好地处理不同的文法结构、词汇辨识、惯用语的对应等。

目前的机器翻译工具通常可允许针对特定领域或是专业（例如天气预报）来加以定制化，目的在于将词汇的翻译缩小于该特定领域的专有名词上，以改进翻译的结果。这种技术针对一些使用较正规或是较制式化陈述方式的领域来说特别有效。例如，政府机关或法律相关文件，通常比一般的文字表达更加正式与制式化，其机器翻译的结果往往比日常生活对话这种非正式文件要好。

但是，机器翻译的结果好坏，往往取决于译入跟译出语之间，在词汇、文法结构、语系甚至文化上的差异，例如英文与荷兰文同为印欧语系日耳曼语族，这两种语言间的机器翻译结果，通常便会比中文与英文间机器对译的结果要好很多。

因此，要改善机器翻译的结果，人为的介入仍显相当重要，例如，某些机器翻译的系统若能够由人为的界定或选择哪个词语比较适合，则可大幅改进机器翻译的正确度与品质。

目前的一些翻译工具，例如 Alta Vista Babelfish,有时可以得到可以理解的翻译结果，但是想要得到较有意义的翻译结果，往往需要在输入语句时进行适当地编辑，以利于计算机程序分析。一般而言，大众使用机器翻译的目的，可能只是为了要得知原文句子或段落的要旨，而不是精确的翻译。总的说来，机器翻译还没有达到可以取代专业（人工）翻译的程度，并且也尚不能成为正式的翻译。

自然语言处理 ( NLP, Natural Language Processing )是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言；自然语言认知则是指让计算机"懂"人类语言背后的实质涵义。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

理论上， NLP是一种很吸引人的人机交互方式。早期的语言处理系统，如 SHRDLU,当它们处于一个有限的 "积木世界"，运用有限的词汇表会话时，工作得相当好。这使得研究员们对此系统相当乐观。然而，当这个系统拓展到充满了现实世界的含糊与不确定性的环境中时，他们很快就丧失了信心。由于理解（ Understanding ) 自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，自然语言认知，同时也被视为一个人工智能完备 ( AI-Complete ) 的问题。

基于统计的自然语言处理运用了概率和统计的方法来解决基于文法规则的自然语言处理存在的问题。尤其是针对容易高度模糊的长串句子，当套用实际文法进行分析时可能会产生出成千上万种可能性。处理这些高度模糊句子所釆用消歧的方法通常运用到语料库以及马可夫模型（Markov models ) 。统计自然语言处理的技术主要由人工智能技术中与学习行为相关的子领域 ——机器学习（ Machine Learning )及数据挖据（ Data Mining )所演进而成。

但是，这种基于统计的自然语言处理方法，需要建立含有庞大数据量的配对语料的语料库供计算机学习和使用，而对于数据量巨大的语料库而言，从中检索出对应的机器翻译（理解）结果并进行反馈，也需要很大的计算资源支持。此外，即使釆用这种方法，应对实际自然语言的多样性及不确定性也有 4艮大的困难。

自然语言处理技术在实践中有着广泛的应用。例如，交互式语音应答和互联网呼叫中心系统等。

交互式语音应答 ( IVR, Interactive Voice Response )是一种基于电话的语音增值业务的统称。很多机构（如银行，信用卡中心，电信运营商等）都通过交互式语音应答系统（ IVRS, Interactive Voice Response System )向客户提供各式各样的自助服务，客户可拨打指定的电话号码，进入系统，根据系统之指示，键入适当的选项或个人资料，以听取预录之信息，或经计算机系统根据预设的程序（Call Flow )组合数据，以语音方式读出特定的资料（如户口结余、应付金额等），还可通过系统输入交易指示，以进行预设的交易 (如转账、更改密码、更改联系电话号码等）。

尽管 IVR系统在过去十数年得到了广泛的应用，但在技术上， IVR系统天生就有一个至今仍困扰着所有机构的硬伤：无法简化的多层选项菜单树。用户在使用 IVR系统选择自助服务的时候，绝大多数都没耐心去花时间游历一棵多层选项的菜单树，而是直接按 "0，，转人工客服座席，导致机构对 IVR 系统能 "有效提升客户使用自助服务比率和大幅替代人工作业量 "的期望与现实存在着一个不可逾越的鸿沟。

互联网呼叫中心系统（ ICCS， Internet Call Center System )是近年兴起的一种新型呼叫中心系统，釆用流行的即时通讯 ( IM, Instant Messaging ) 互联网技术，让机构与自己的客户可以在互联网上进行主要基于文本的实时沟通，被应用于机构的客户服务和远程销售。使用 ICCS的人工座席可以同时与两个以上的客户进行交流。

可以说，基于文本的 ICC系统是基于语音的 IVR系统的一个变种，都是机构与其客户之间进行沟通（不管是客户服务，还是远程销售）的必要工具，两者背后都需要人工座席的高度参与。因此，与 IVR系统一样， ICC系统同样难以满足机构的"有效提升客户使用自助服务比率和大幅替代人工作业量" 需求。

另一方面，传统的语音识别技术基于缺乏准确度和稳定度的语音识别结果，利用关键字搜索技术，釆用 "穷举法" 去做语音的语义分析。虽然很多语音识别技术公司在 "转写（Transcription ) " 和 "关键字切割（Keyword Spotting ) "这两项工作上耗费了巨大的人力与金钱，并且长期坚持不懈地去训练语音机器人，但实际效果往往与理想中的效果相差甚远。

发明内容

根据本发明的一个方面，提供了一种自然表达处理方法，其包括：对于来自用户的自然表达进行识别，得到计算机可处理的某种形式的语言信息；以及将识别得到的语言信息转换为编码形式的标准表达。

根据本发明实施例的自然表达处理方法，可选地，标准表达包括体现用户需求的需求代码。

根据本发明实施例的自然表达处理方法，可选地，需求代码用数字编码表示。

根据本发明实施例的自然表达处理方法，可选地，标准表达还包括进一步体现用户具体需求的需求参数。

根据本发明实施例的自然表达处理方法，可选地，所述语言信息是由利用建模工具对语音形式的自然表达进行切割和转换得到的语言信息单元构成的。

根据本发明实施例的自然表达处理方法，可选地，所述语言信息是由音素、字和短语中的一种构成的。

根据本发明实施例的自然表达处理方法，可选地，基于语言信息与标准表达的 MT ( Machine Translation机器翻译 )训练数据表来实现从语言信息到标准表达的转换。

根据本发明实施例的自然表达处理方法，可选地，在识别自然表达的同时得到与该自然表目关的信息，并将此信息转换为标准表达的一部分。

根据本发明的另一个方面，提供了一种人工智能机器人的训练方法，其包括：建立 MT训练数据表，该 MT训练数据表包括有：通过转换自然表达所得到的计算机可处理的语言信息，编码化的标准表达以及所述语言信息和所述标准表达的对应关系；使得人工智能机器人对于所述 MT训练数据表中已有的所述语言信息的元素的各种排列组合和所述标准表达的元素的各种排列组合进行循环迭代比较，找出所述语言信息元素的排列组合与所述标准表达元素的排列组合之间的对应关系。

根据本发明实施例的人工智能机器人的训练方法，可选地， MT训练数据表的数据可以从外部数据库导入，也可以通过人工辅助理解来进行生成和添力口。

根据本发明的另一个方面，提供了一种自然表达处理方法，其包括：输入自然表达；识别所述自然表达，得到计算机可处理的某种形式的语言信息；判断是否能够通过机器转换将所述语言信息转换为编码化的标准表达；如果判断不能通过机器转换得到所需的标准表达，进行人工转换处理；以及输出机器转换或人工转换的标准表达。

根据本发明实施例的自然表达处理方法，可选地，判断是对于机器人理解是否成熟的判断，其中，对于机器人理解是否成熟的判断，是基于对一定时间区间内的机器人理解准确率的评估来进行的。

根据本发明的又一个方面，提供了一种自然表达处理及回应方法，包括：输入自然表达；识别所述自然表达，得到计算机可处理的某种形式的语言信息及相关的表达类型信息；判断是否能够通过机器转换将所识别的自然表达和表达类型信息转换为编码化的标准表达；如果判断不能通过机器转换得到所需的标准表达，进行人工转换处理；调用或生成与所述机器转换或者人工转换的标准表目匹配的标准回应；以与所述表达类型信息对应的方式输出所述生成的标准回应。

根据本发明实施例的自然表达处理及回应方法，可选地，标准回应是预先存储在数据库中的固定数据，或者基于预先在数据库中存储的标准回应的基础数据和变量参数来生成所述标准回应。

根据本发明的再一个方面，提供了一种自然表达处理及回应设备，其包括：对话网关，中央控制器， MAU 工作站，机器人，表达数据库，回应数据库和回应生成器，其中，对话网关接收来自用户的自然表达，发送给中央控制器进行后续处理，并且将对自然表达的回应发送给用户；中央控制器接收来自对话网关的自然表达，并与机器人以及 MAU工作站协同工作，将该自然表达转换为编码化的标准表达，并根据标准表达指示回应生成器生成与该标准表达对应的标准回应；机器人根据中央控制器的指示，识别自然表达，得到计算机可处理的某种形式的语言信息，并且利用表达数据库将该语言信息转换为标准表达； MAU工作站将经识别的自然表达或者来自用户的自然表达呈现给外部的 MAU人工座席， MAU人工座席通过 MAU工作站输入或者选择标准表达，然后 MAU工作站将该标准表达发送给中央控制器；表达数据库用于存储表目关数据，包括：与所述自然表目关的所述语言信息数据，与所述标准表目关的标准表达数据，以及与所述语言信息和所述标准表达之间的关联相关的数据；回应数据库存储回应相关数据，包括供调用的标准回应数据和 /或用于生成回应的数据；回应生成器接收中央控制器的指令，通过调用和 /或运行回应数据库中的数据来生成对用户的自然表达的回应。

根据本发明实施例的自然表达处理及回应设备，可选地，中央控制器更新表达数据库和 /或回应数据库。

根据本发明实施例的自然表达处理及回应设备，可选地，所述设备进一步包括训练器，该训练器用于训练机器人将自然表达转换为标准表达。

根据本发明实施例的自然表达处理及回应设备，可选地，对话网关进一步包括身份认证器，用于在接收自然表达信息前识别和验证用户的身份，其中，用户身份验证方法至少包括密语和声纹识别。

根据本发明的再一个方面，提供了一种自然表达处理及回应系统，包括：智能应答设备，以及呼叫设备，用户通过呼叫设备与智能应答设备通信， MAU 人工座席对智能应答设备进行操作，其中，智能应答设备包括：对话网关，中央控制器， MAU 工作站，机器人，表达数据库，回应数据库和回应生成器，对话网关从呼叫设备接收来自用户的自然表达，并将其发送到中央控制器；中央控制器指示机器人从自然表达识别出计算机可处理的某种形式的语言信息及相关的表达信息，然后指示机器人将该语言信息及相关的表达信息转换为标准表达；如果机器人的理解力不够成熟，而不能完成标准表达的转换，则中央控制器指示 MAU工作站提示 MAU人工座席进行标准表达的人工转换， MAU人工座席将机器人识别的语言信息及相关表达信息转换为标准表达，并通过 MAU工作站输入并发送到中央控制器；中央控制器基于标准表达指示回应生成器调用和 /或运行回应数据库中的数据来生成对用户的自然表达的回应；对话网关将回应通过呼叫设备反馈给用户。

根据本发明实施例的自然表达处理方法，可以将自然表达转换为编码化的标准表达，由于该标准表达的转换是将自然表达的语义转换为编码和参数，而无需精确的逐字翻译，因此可以降低机器翻译的精准度要求，同时降低用于实现表达转换（机器翻译）的数据库的复杂度，提高数据查询和更新速度，从而提高智能处理的性能。另一方面，相对简单的编码化表达，也可以减少人工辅助干预的工作量，提高人工辅助干预的工作效率。

根据本发明实施例的自然表达处理和应答方法、设备及系统，可以利用标准表达快速指向回应，从而使得客户无需再花长时间遍历复杂的常规功能菜单来寻找自己所需的自助服务。并且，通过机器人的自动学习、训练及人工辅助理解，可以建立标准化的自然表达一标准表达一标准回应数据库，逐渐实现系统自动理解和回应。并且该数据库还可以具有颗粒度小、知识范畴、数据保真度高等优点，从而降低机器人训练难度，缩短机器人智能的成

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图 1 示意性地示出了根据本发明一个实施例的自然表达处理方法的流程；

图 2示意性地示出了根据本发明一个实施例的自然表达处理及回应方法的流程；

图 3示意性示出了根据本发明实施例的智能应答系统；

图 4进一步示出了图 3系统中的智能应答设备的部分结构；

图 5示意性地示出了由 MAU工作站呈现给人工座席的操作界面的一个例子；

图 6示出了对语音信息进行识别的一个例子；

图 7示出了一个利用高斯混合模型将釆集的声波转换为 X元素的例子；图 8示出了从釆集的声波（ A语言信息）到 Y语言信息的转换的一个例子；

9概括示出了从釆集的声波（ A语言信息）到 Y语言信息的逐层转换

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的"第一"、 "第二 "以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样， "一个 "或者 "一"等类似词语也不表示数量限制，而是表示存在至少一个。语音应答 IVR或互联网呼叫中心系统 ICCS的客户服务系统或其他远程客户联络系统（如：电话销售系统、网络销售系统、 VTM智能远程终端机 ... ... )。如前所述，在这类应用中，对机器翻译的要求并非逐字的确切含义，而是需要将客户的自然表达转换为系统能够理解的信息，从而为客户提供与其表达对应的应答。也就是说，这里的机器翻译侧重于对人类语言背后的实质涵义的理解，从而以计算机程序更易于处理的形式表示从自然表达中所"理解"到的客户实际意图或需求。

根据本发明实施例的自然表达处理方法，首先对于来自用户的自然表达进行识别或者转换，得到计算机可处理的某种形式的语言信息，然后将该识别得到的语言信息转换为某种形式的标准表达。我们称之为 "物理层语言信息" ，以下也简称为 "A语言信息" 。通过某种建模工具，进行基本的自动识别或转换，得到以若干基本元素（以下称为 "X 元素" ）排列组合的形式表现的第一逻辑层语言（以下称为 "X语言" ）信息。将 A语言信息识别或转换得到的 X语言信息再转换生成的某种形式的标准表达，以下称 "Y语言信息" 。

人类的自然表达方法是多种多样的，例如，可将来自客户的自然表达，即 "A语言信息" 分为以下四大类：文字信息、语音信息、图像信息、动画信息。

其中，文字信息表达可以是：客户通过键盘输入文字表达自己，例如，客户在一家银行的互联网通道呼叫中心用户界面上键入"我的储蓄账户里还有多少钱？ "；图像信息表达可以是：客户通过图像表达自己，例如，客户通过电脑桌面截屏工具，将使用某种软件的出错信息，以图像的方式表达自己所遇到的问题；语音信息表达可以是：客户通过说话表达自己，例如，客户与一家银行的服务热线（电话通道呼叫中心）客服专员对话，期间在电话上说： "你说的到底是什么意思？我不是太明白"；动画（或称 "视频"）信息表达可以是：客户通过在镜头前摇头以表达自己不同意。

如前所述，将客户的自然表达（ A语言信息）进行自动识别或转换，得到以某种语言形式表示的信息。如果 A语言信息是语音信息，那么例如可以通过建模工具釆集声波波形信息并通过系统（智能机器人）自动识别或转换为某种（对应于语音信息）的 X语言；如果 A语言信息是图形信息，那么例如可以通过建模工具釆集图形像素信息并通过系统（智能机器人）自动识别或转换为（对应于图像信息的） X语言；如果 A语言信息是动画信息，那么例如可以通过建模工具釆集图形像素信息和图像变化速度信息并通过系统 (智能机器人）自动识别或转换为（对应于动画信息信息的） X语言；如果 A语言信息是文字信息，则无需转换。

然后，将以上从 A语言信息自动转换得到的 X语言信息或无需转换的文字信息 "翻译 "为计算机或其它处理设备能够"理解"的规则化标准表达（Y语言信息）。 Y语言信息可被计算机业务系统进行自动处理。

根据本发明的实施例，可以用规则化的编码来实现所述规则化标准表达

( Y语言信息）。例如，釆用如下的编码方式，其包括行业代码，行业业务代码，机构代码，机构业务代码和表达信息代码。

( 1 )行业代码

主行业（2位英文字母，最多 26x26=676个主行业）

子行业（3位英文字母，每个主行业最多有 26x26x26=17,576个子行业）

( 2 )行业业务代码

一级行业业务范畴（ 1位数字 0-9 )

二级行业业务范畴（ 1位数字 0-9 )

三级行业业务范畴（ 1位数字 0-9 )

四级行业业务范畴（ 1位数字 0-9 )

五级行业业务范畴（ 1位数字 0-9 ) 六级行业业务范畴（ 1位数字 0-9 )

七级行业业务范畴（ 1位数字 0-9 )

八级行业业务范畴（ 1位数字 0-9 )

九级行业业务范畴（ 1位数字 0-9 )

十级行业业务范畴（ 1位数字 0-9 )

( 3 ) 机构代码 ( UID ) ( 24位数字 =国家号 3位+城市号 3位 +机构号 18 位）

( 4 )机构业务代码

一级机构业务范畴（0-9 )

二级机构业务范畴（0-9 )

三级机构业务范畴（0-9 )

四级机构业务范畴（0-9 )

五级机构业务范畴（0-9 )

( 5 )表达信息代码

信息类型代码 ( 2位数字 1-99 )

语言代码（使用 RFC3066标准： http://tools.ietf.org/html/rfc3066，如 zh-CN代表"简体中文"）

方言代码（ 3位数字 1-999 )

其中，行业代码表示来自客户的无规则自然表达（ A语言信息）所指向的提供服务的主体所在的行业，例如，可以用 2位英文字母表示，则可以涵盖 676个行业，可选地，增加 3位英文字母的子行业代码，可增加涵盖每个行业的 17576个子行业。这样，该编码基本上可以涵盖所有常见的行业；行业业务代码表示来自客户的 A语言信息所指向的服务需求，同样可以用多位阿拉伯数字表示，例如，釆用 10位数字进行编码，可以涵盖更多的行业业务范畴；机构代码表示来自客户的 A语言信息所指向的提供服务的主体，例如，可以标识该机构所在国家和城市；机构业务代码表示提供服务的主体的内部个性化业务划分，便于机构进行个性化内部管理；表达信息代码表示客户的 A语言信息本身的标识性信息，可以包括信息的类型、语言的类型等等，用数字和字母表示。

以下是根据以上编码方式的规则化标准表达（Y语言信息）的两个例子：例一： FSBNK27100000000860109558800000000000000000002zh-CN003 其中，

行业代码为，

• FS = Financial Service金融服务 (主行业）

· BNK = Bank银行 (子行业）

行业业务代码为，

• 2710000000 =一级行业业务范畴一 2 (信用卡）二级行业业务范畴一 7 (调整信用额度）三级行业业务范畴一 1 (增加信用额度） 0000000 (再无更细分范畴 )

机构代码为，

• 086010955880000000000000 = 国家号 086 ( 中国） 010 (北京） 955880000000000000 (中国工商银行总行）

机构业务代码为，

• 00000 =无机构业务范畴（在这个 Y语言信息中，没有"中国工商银行总行"这个机构自己定义的机构业务范畴，即表示：该 Y语言信息完全属于行业业务范畴，为银行业通用。）

表达信息代码为，

• 02 =语音（客户提供的 A语言信息类型为"语音" )

• zh-CN = 大陆中文

· 003 = 广东话方言

在此例子中，该 Y语言信息所对应的 A语言信息可以是，诸如， "我的信用卡额度太少了"， "我想增加我的信用卡额度"， "我要减低我的信用卡额度"， "我需要调整信用卡额度"等等语音信息。

在一些特定的应用情形，特别是提供服务的主体确定的情况，上述的行业代码、机构代码和机构业务代码都可以作为系统缺省值预设。也就是说，仅从客户提供的 A语言信息中获得业务代码和表达信息代码即可，在这种情况下，可以将 Y语言信息表示为" 271000000002zh-CN003"; 或者，如果针对特定应用 3 位数字表示行业业务代码就够了，则可以进一步表示为 "27102zh-CN003"；再者，如果仅针对语音服务，则可以表示为 "271zh-CN003"; 如果只考虑客户的需求表达，而不关心表达自身的类型信息，甚至仅用 "271" 表示即可。例二： TVTKT11200000000014047730305000000000001240003fr-CH000

• TV = Traveling Service旅游服务 (主行业）

• TKT = Ticketing票务（子行业）

· 1120000000 =一级行业业务范畴一 1 (飞机票 ) 二级行业业务范畴一 1 (机票改签 ) 三级行业业务范畴一 2 (延后 ) 0000000 (再无更细分范畴）

• 001404773030500000000000 = 国家号 001 (美国） 404 (乔治亚州、亚特兰大市） 773030500000000000 (美国 Delta航空公司）

• 12400 = 一级机构业务范畴一 1 (折扣票）二级机构业务范畴一 2 (淡季）三级机构业务范畴 (亚太区） 00 (再无更细分范畴）

• 03 = 图像（客户提供的 A语言信息类型为"图像"，如：客户在 Delta官方网站上进行机票改签操作时，遇到系统报错，客户将屏幕截图，作为向 Delta 客服求助的自然表达。 )

• fr-CH =瑞士法文

· 000 =无方言

在此例子中， Y语言信息所对应的 A语言信息是通过图像识别得到的。同理，在提供服务的主体确定的情况，上述的行业代码、机构代码可以作为系统缺省值预设。在这种情况下，可以将 Y 语言信息表示为 "11200000001240003fr-CH000"; 如果只考虑客户的需求表达，而不关心表达自身的类型信息，仅用 "112000000012400"表示即可；如果针对特定应用 3位数字表示行业业务代码， 3 位数字表示机构业务代码，仅用" 112124"表示即可。

以上只是根据本发明实施例的规则化标准表达（Y语言信息）的例子，可以釆用不同的代码位数和代码排列顺序，也可以釆用不同的代码表示或编码方式。

来自客户的自然表达（ A语言信息）往往体现了该客户的具体需求，如前所述，首先将客户的 A语言信息自动转换为 X语言信息或无需转换的语言信息（当 A语言信息是文字信息的时候），然后将 X语言信息或文字语言信息转换为编码形式的标准表达（Y语言信息）。在前面的例子中， Y语言信息可以包括行业代码，行业业务代码，机构代码，机构业务代码和表达信息代码。可选地， A语言信息也可以包括体现客户需求范畴下的具体参数（可称之为 "需求参数"），如： "转 5000块给张三" （例一）、 "我想看一部电影，叫《中国合伙人》" （例二）等等。特定的需求代码集（例如包括前述的行业代码，行业业务代码，机构代码，机构业务代码和表达信息代码中的一种或多种）对应特定的参数集。如上例二，若 "看电影" 的需求代码是 123，其对应的参数集可以包括参数：电影名称。那么。这个 A语言信息对应的 Y语言信息是 "123 <中国合伙人〉"。 123是需求代码， <〉里的五个中文字是需求参数。在 Y语言信息中将需求代码与需求参数区分的方式有多种，可以是利用诸如 "<〉" 的符号，也可以是用空格，还可以用特定顺序排列等方式。前述的将客户的 A语言信息转换为可由计算机处理的某种语言形式的信息的过程，可以通过语音信号处理技术、语音识别技术、图像识别技术和视频处理技术来实现，这些技术可以是已有的技术。实际上，根据本发明实施例的编码化标准表达思想也可以被应用到自然表达的识别处理中。

下面，我们先以语音信息的处理为例，介绍自然表达的识别处理，并进一步说明本发明的技术思想在自然表达识别处理中的应用。图 6示例性地示出了对语音信息的处理过程。在该处理过程中，实现了从 A语言到 D语言的处理。需要注意的是，图 6中的 "X语言" 信息与 "A语言" 信息的对应关系，以及 "X语言"信息与 "B语言"信息的对应关系，仅起示范说明作用。

A语言，即声波，是由声波釆集设备（如：麦克风）收集的物理层数据。 X语言是对 A语言数据进行语音信号处理（ Speech Signal Processing )后所得到的第一逻辑层数据，本发明中称之为 "X语言"。 X语言是由 X元素的各种排列组合形成的语言。 X元素是系统通过某种建模工具，如：高斯混合模型（ Gaussian Mixture Model, GMM )，将声波自动切割成的高低不同的若干柱状元素。图 7示出了一个利用高斯混合模型将釆集的声波（以直方图表示）转换为 X元素（以矢量量化直方图表示）的例子。

根据不同的建模工具，应用于不同的自然语音集， X元素的数量可以控制在一定的范围内（例如， 200以下）。根据本发明的实施例，将 2位 ASCII 字符的组合定义为 X元素的 ID，如图 8所示。也就是说， X元素的数量最高可达 16,384 ( 128 x 128 = 16,384 )，可以满足未来因声波建模技术的进一步发展而需增加 X元素数量的需求。切割后的声波单元与 X元素是——对应的，由于 A语言信息可以认为是声波单元的组合， X语言信息是 X元素的组合，图 6中的从 A语言到 X语言的转换（或称 "识别"）关系是 "多对多" 的关系。图 6中示出了用 ASCII字符表示的 X元素的例子。

"B语言"，是由 B元素的各种排列组合形成的语言，是图 6中的第二逻辑层数据。 X元素的全部或部分排列组合形成 B元素，因此也可以理解为 X语言转换为 B元素，而 B元素构成了 B语言。于是，从 X语言到 B语言的转换关系也是 "多对多" 的关系。 B元素可以是音素，而 B元素的某些排列组合构成音节。这里的 "音素" 和 "音节" 与其在语言学范畴下的含义相同。图 6中示出了 B元素的例子，这些例子是中文（汉语）的音素。

"C语言" 是由 C元素的各种排列组合形成的语言，是图 6中的第三逻辑层数据。 B元素的全部或部分排列组合形成 C元素，因此也可以理解为 B 语言转换为 C元素，而 C元素构成了 C语言。于是，从 B语言到 C语言的转换关系也是 "多对多" 的关系。如果沿用音素、音节的语言学体系， C元素对应于自然语言中的 "字"。图 6中示出了 C元素的例子，这些例子是中文的字。

"D语言"是由 D元素的各种排列组合形成的语言，这是图 6中的第四逻辑层数据。 C元素的全部或部分排列组合形成 D元素，因此也可以理解为 C语言转换为 D元素，而 D元素构成了 D语言。于是，从 C语言到 D语言的转换关系也是 "多对多" 的关系。如果沿用音素、音节、字的语言学体系， D元素对应于自然语言中的 "词 " 或 "短语"。图 6中示出了 D元素的例子，这些例子是中文的词。

图 6中的 "C语言"例子和 "D语言"的例子看上去内容相同，均由 "我"、 "的"、 "信"、 "用"、 "卡"、 "丟"、 "了" 顺序组成，但是，熟悉中文的人可以知道，仅从 C语言来进行理解，会产生艮大的多义性，而转换为 "D语言" 后，该表达的含义就比较确定了。对于其它语种而言，从字词或短语的转换对于语义理解也是十分重要的，特别是由智能系统（语音机器人）实现语音识别的情况下。根据不同的自然语言， "字" 和 "词"，也就是 C语言信息和 D语言信息，也可能归为一个语言信息层级。

"Y语言"是第五逻辑层数据 (如图 8所示 )，是指对原始自然语言信息 A进行理解后获得的体现 "意思" 或者 "含义" 的语言信息。本发明前述定义的 "标准表达" 即为 "Y语言" 的一种形式。根据本发明的实施例，例如：银行业可以用业务编码 "21" 代表 "信用卡挂失" 的含义；可以用业务编码

"252" 代表 "信用卡部分还款" 的含义，而 "252-5000" (需求代码 = 252，需求参数 =5000 )则代表 "信用卡还款 5000元" 的含义；娱乐业可以用编码 "24"代表 "观看电影"的含义，而 "24-中国合伙人"（需求代码 =24，需求参数= "中国合伙人"）则代表 "观看电影《中国合伙人》" 的含义。从 D语言到 Y语言的转换关系也是 "多对多" 的关系。

图 9示意性地示出了从釆集的声波（ A语言信息）到 Y语言信息的逐层转换过程。从图 9可以看到，从 "声波" （ A语言信息）到 "X元素" （X语言信息），再到 "音素"（B语言信息），再到 "字"（C语言信息），再到 "词" ( D语言信息 D )，最后到 "意思" 或 "含义"（Y语言信息），是对六种语言信息的五次转换（翻译）。从数据库的数据结构角度，是从 "声波"这种初始语言信息 A开始，通过对五种语言构成元素的排列组合的路径选择，找到或者对应到第六种语言信息数据，也就是目标语言信息 Y。

由于要进行前述的五次语言信息转换，因此，机器人也要具有这五种信息语言转换的能力。一般而言，可以将这五步转换分为三个阶段。在这三个阶段中，为了对语音机器人进行训练，都需要人工辅助识别。

第一阶段：从 Α语言信息（声波）到 C语言信息（字）。从 A语言信息 (声波）到 B语言信息（音素）的两步转换由于借助了语言信息 X的信息提取和转换算法（诸如前述的高斯混合模型），一般可以由机器人比较准确地自动完成。但是，从 B语言信息（音素）到 C语言信息（字）的转换，可能会发生较高的错误率。例如，以中文为例，如图 6例子所示，客户输入的原始语言信息为 "乒乓球拍卖完了"，可能因为客户发音或口音的问题， "乒乓球" 可能被分别识别为 "平板就"， "拍"可能被识别为 "怕"，结果这段声波最终被转换成 "平板就怕卖完了" 七个字。为了提高机器人的识别准确度，特别是针对诸如上述发音或口音的问题，需要对机器人的识别结果进行纠正，通常釆用人工辅助识别的方式。此阶段的人工辅助识别称为转写 ( Transcription I所谓转写，就是转写人员通过使用特定的转写工具，将 "声波" （A语言信息）进行精准切割，然后将切割出来的波段各自转成相应的 "字" （C语言信息），也就是为机器人定义 A语言（声波）语言（字）的转换 /翻译关系。切割是否精准，关键取决于转写人员是否足够细心，对转写工具掌握的熟悉程度；而能否准确转成相应的 "字"，关键取决于转写人员对这段声波所处的语境，以及上下文（位于这段声波前后的其他声波），是否已经准确理解。特别是汉字，同音字很多，也加大了转写人员精准工作的难度。

第二阶段：从 C语言信息（字）到 D语言信息（词、短语）。从字到词的转换同样会发生歧义，如前例，即使从声波到字的识别是准确的，得到了 "乒乓球拍卖完了" 七个字的顺序排列结果，但是仍然会转换为至少 "乒乓球拍 + 卖 + 完了" 和 "乒乓球 +拍卖 + 完了" 两种结果，其含义显然是不同的。同样，可以釆取人工辅助识别来进行纠正。此阶段的人工辅助识别称为关键字切割（ Keyword Spotting )，也可以简称为 "切词"，就是切词人员将转写出来的 "字" （C语言信息）进行组合，形成 "词（关键字）" （D语言信息），也就是为机器人定义 C语言（字）语言（词）的转换 /翻译关系。切词是否准确，往往取决于切词人员对业务知识的掌握程度。针对不同的领域，需要熟悉该领域业务内容和用语的人员进行切词操作，其成本也会比转写有所提高。

第三阶段：从 D语言信息到 Y语言信息，也就是意思理解。仅仅获得了一定顺序排列的词语，往往还不能准确了解客户的真实含义。例如，客户说 "我的信用卡不见了"，机器人识别不出其含义，技术员就将 "我的"、 "信用卡"、 "不见了" 作为新的关键字放入数据库的语法表中；另一个客户说： "俺的刷刷卡丟了"，机器人又识别不出其含义，技术员就将 "俺的"、 "刷刷卡" （就是 "信用卡"的意思）、 "丟了"作为新的关键字放入数据库的语法表中。这样，通过人工辅助的方式，将客户的含义或者需求加以理解，并归纳加入数据库。这种人工辅助识别称为关键字堆砌（ Keyword Pile-up )，简称为 "堆词"，就是积累 "词" 的排列组合，并根据其的含义予以归纳入数据库。这项工作的工作量也是巨大的，并且也需要训练人员的专业知识来辅助理解。

如前所述，根据本发明实施例的自然表达处理方法，首先对客户的自然表达（ A语言信息）进行自动转换得到 X语言信息，或无需转换直接得到 C 语言信息（当 A语言信息是文字信息的时候）；然后将 X语言信息或 C语言信息转换为 Y语言信息。结合前面的分析，所述无规则自然表达可以是 X语言信息、 B语言信息、 C语言信息、 D语言信息中的一种。也就是说，自然表达处理的过程可以是： A^X^Y, A^B ^Y, A^C^Y, A^D^Y 中的一种。

如果依照图 9 所示的语言信息转换模型，需要进行以上六种语言 A^X^B ^C^D^Y 的多层 "多对多" 关系转换，在学术上被称为 MLP ( Multi-Layer Perception, 多层感知），如图 10所示。多层 "多对多" 关系转换的弊端是：每做一次转换，都会造成原始信息在某种程度上的失真，同时也会给系统增加更多的处理负荷，造成进一步性能损失。转换的次数越多，原始信息的失真越厉害，而系统的处理速度也越曼。同理，由于在前述三个阶段中的机器人训练均需要人工辅助识别的介入，一方面会产生很高的工作量和成本，另一方面多次人为介入也会提高出错的概率。因此，如果能够实现 A X Y的转换，从而省去 X B C D Y的多层 "多对多" 关系转换，则可以提高表达信息转换的正确率和效率，也可以降低人工辅助识别的工作量和出错率。

根据本发明的技术，首先通过建模工具，将文字、语音、图形、视频这些非规则化的自然表达信息转换成 X语言信息；然后将 X语言作为左侧语言， Y语言作为右侧语言，通过使用机器翻译（MT )技术，实现 X语言信息到 Y语言信息的转换。

具体而言，以处理语音这种非规则化自然表达信息为例，首先利用 "语音信号处理（ Speech Signal Processing )"技术自动将 A语言自动转换 /翻译成 X语言（基于目前的 "语音信号处理" 技术， A X的转换准确率普遍可高达 95%以上，而改进的 "语音信号处理" 技术在降噪方面做得更好，可将 A^X的转换准确率提升至 99%以上 ); 然后再利用机器翻译技术实现 X Y 的自动机器翻译，而无需再通过 X B C D Y的多层转换。

可以利用类似于基于对实例样本进行统计分析的机器翻译算法来将转换得到的无规则自然表达（ X语言信息）转换为规则化标准表达（ Y语言信息）。这种机器翻译算法要求 X语言与 Y语言之间对应数据的量足够大，而且足够准确。

根据本发明的方法，考虑到已可以实现 A X的精确机器自动转换，为了积累 X语言与 Y语言之间的对应数据，可以积累 A语言与 Y语言之间的对应数据。于是，本发明的方案提供了 MAU ( Mortal Aided Understanding人工辅助理解）这一新的人工座席工作模式，通过人工理解结合代码输入，实现 A语言与 Y语言之间的对应数据积累。如前例，可以用 "271" 这个需求代码来表示调整信用卡额度的含义，同理，也可以用 "21" 来表示信用卡挂失的含义，这样就可以用 "21"来对应于前述的 "我的信用卡不见了"或 "俺的刷刷卡丟了" 的自然表述信息。这种简洁的代码输入方式，将传统 "说话的座席"转为 "不用说话的座席"，令座席的工作变得更舒适，工作效率得以大幅提升之余，更充分利用了人类最高价值的理解能力，准确而高速地收集海量的 A/X语言与 Y语言的对应数据，提供给 MT引擎进行循环迭代，自学习 A/X Y的转换 /翻译规律，形成 A/X Y的翻译模型。

以下介绍根据本发明的机器翻译技术及机器翻译机器人训练技术的工作原理。

机器翻译是用来对两种语言进行自动翻译的一种人工智能技术。这里所指的 "语言" 不是狭义的国家语言（例如：中文、英文 ... ... )，而是广义的信息表现方式。如前所述，以表现方式分，语言可分为四大类：文字、语音、图像、动画（或称 "视频"）。

语言是由元素集里的元素，通过各种排列组合而形成的信息。例如：英文文字是由 ASCII字符集（元素集）里的 128个 ASCII字符（元素），通过各种一维（串行）排列组合而形成的一种语言；中文这种语言，就是由国标码里的几千个中文字再加上标点符号（构成中文信息的基本元素）的无限排列组合；又例如： RGB平面图像是由红、绿、蓝三种子像素，通过各种二维 (长与宽）排列组合而形成的另一种语言。

任何两种语言之间存在着某种转换 /翻译规律，都可以通过分析两种语言元素排列组合的对应关系，找出两种语言之间的自动转换 /翻译规律。首先需要人工收集两种语言的对应数据（或称 "翻译样本"），然后通过对两种语言元素排列组合的迭代循环，自动找出两种语言之间的自动转换 /翻译规律，形成两种语言的翻译模型。

做机器翻译需要两张数据表： "训练数据表（Training Dataset )" 和 "检验数据表（ Testing Dataset )，，。

这两张表的数据结构是类似的：存储的是一对对的数据，左值是 "左语言" （或称 "源语言"），右值是 "右语言" （或称 "目标语言"）。我们可以形象地做这么一个比喻： "训练数据表 " 是人类给 MT机器人自学的课本，而 "检验数据表" 则是人类给 MT机器人出的考题，用以评估机器人的自学效果。

下面是英文中文的 MT "训练数据表" 和 "检验数据表" 的例子：

MT机器人是以组成语言的元素为单位进行排列组合的迭代循环的。如上例中，通过训练数据表中的 #3和 #4两组数据对，发现英文" May I have your" 这 15个 ASCII字符元素（ 3个英文字母 "May" + 1个空格 + 1个英文字母 "I" +1个空格 + 4个英文字母 "have" + 1个空格 + 4个英文字母 "your" ) 的排列组合对应着中文的 "请问您" 这 3个国标码中文字的排列组合；通过训练数据表中的 #2和 #5两组数据对，发现英文 "age" 这 3个 ASCII字符元素的排列组合对应这中文的 "年纪" 这 2个国标码中文字的排列组合。

因此，如果机器人能将检验数据表中的英文 "May I have your age?" 准确翻译成中文 "请问您年纪？ "，那就证明机器人学会了这一句的中英文翻译。如果不能，那就证明机器人还没学会。那么机器人就需要修正一下自己的学习方法（例如，寻找另一条路径去尝试再学习），对训练数据表重新消化一次，这又是一次迭代； ......如此不断重复着这种"迭代修正"，可使得机器人的翻译准确率不断地爬升。当爬升到一定程度（例如，翻译准确率为 70% )后，机器人的翻译准确率可能会一直徘徊在这个水平，再也很难上去了，也就是说遇到了 "机器自学习 "的瓶颈，那么就需要为机器人增加 MT训练数据表数据。 MT训练数据表的数据可以从外部数据库导入，也可以通过"人工辅助理解"来进行生成和添加。

例如，沿用之前信用卡业务的例子，假设所得到的无规则自然表达为"我的信用卡能透支的太少了"，而机器人理解力不够成熟的时候， "人工辅助理解"可以介入，通过人工将该表达理解为"我想增加我的信用卡额度"，并输入与之对应的 Y语言信息。可选地， "人工辅助理解"处理无需记录对于自然表达的理解过程和理解结果，只需要记录作为最终处理结果的对应标准表达（ Y 语言信息）。这样可以简化人工操作，节省资源。例如，操作员可能只需要输的太少了"的处理。例如，将新的自然表达实例，例如上述的自然表达 "我的信用卡能透支的太少了"，及其对应的标准表达 "271" 添加进现有 MT训练数据表，从而增加和更新 MT训练数据表数据。于是，通过"人工辅助理解"，一方面可以实现对于目标自然表达的准确而稳定的转换（将其转换为标准表达 - Y语言信息），另一方面可以实现 MT训练数据表数据的高效添加与更新，从而使得系统 MT训练数据表中的数据更加丰富、准确，也可能使得机器人的翻译（转换）准确率高效得到提升。

理论上， MT机器人需要对 #3的左值 "May I have your time" 这 20个 ASCII字符元素的所有排列组合进行穷尽罗列，也需要对 #3的右值 "请问您现在什么时间了" 这 10个国标码中文字的所有排列组合进行穷尽罗列。即， MT机器人需要对训练数据表中的每一对数据的左右两组元素的所有排列组合都进行穷尽罗列。通过这种元素级的穷尽罗列， MT机器人一定能发现很多重复出现的排列组合（如 "your"、 "May I have your" . "age" . "time" . "您"、 "请问您"、 "年纪" ... ...），从而能找出这些重复出现的左语言元素排列组合和右语言元素排列组合之间的某种对应关系，也就是两种语言之间的翻译模型。也就是说，训练数据表里左右语言数据对的数量越大， MT机器人所能发现的重复出现的左右两种语言元素的排列组合也就越多，而左右两边重复出现的元素排列组合的对应关系也就越多，那么 MT机器人所掌握的左右两种语言的转换 /翻译规律也就越多，翻译模型也就越成熟。因此，釆用根据本发明技术思想的 "规则化标准表达"和 "人工辅助理解"，可以更高效地积累 MT训练数据表数据，帮助实现机器人自学习和自动机器翻译。

本发明中的 X语言语言之间的机器翻译，与中英文的机器翻译原理是一样的，只不过我们把英文改成了 X语言，把中文改成了 Y语言，而左右两种语言的元素集不同而已。

如前所述，机器翻译技术可用于将一种语言自动翻译成另一种语言。其技术原理就是对收集到的两种语言的配对信息（左侧语言和右侧语言 )进行基本元素级分析，通过对大量的语言信息对的基本元素各种排列组合进行循环迭代比较，从而找出两种语言之间的转换 /翻译规律，形成两种语言的翻译模型。

本发明的技术将机器翻译技术的应用范围从对不同国家语言之间进行自动翻译，延展到将所有非规则化多媒体自然表达信息（文字、语音、图像、视频，即 A语言信息）自动转换成所述的规则化标准信息（Y语言信息），以便各行各业的业务系统可以对它们进行处理，从而实现真正意义上的、实用的 NLP (自然语言处理）。

由于不需要进行传统的机器翻译所需的多层语言学分析，而釆用对实例基本元素级分析的方式，可以增加翻译的准确度和快捷度，同时，也很容易通过添加自然表达实例和标准表达来进行更新和扩充。

对于本发明实施例的自然表达处理而言，因为只需要进行自然表达（ A 语言信息 )到标准表达（Y语音信息 )的转换，换句话说，只需建立 A/X Y 的翻译模型，并非对文本的语言翻译结果，因此无需对翻译结果进行^ ί爹改的处理。

此外，根据本发明实施例的自然表达处理，可以被限制用于具体行业机构的具体业务，例如，上述的信用卡业务，则处理系统所需的 ΜΤ训练数据表规模可以大大缩小，由此在提高机器人理解成熟阀值的同时，降低 ΜΤ训练数据表构建和维护的成本，同时也可以有效缩短 Α/Χ Υ翻译模型的成熟周期。如前所述，根据本发明实施例的自然表达处理系统，实现了从自然表达到编码化的标准表达的转换。该转换的基础在于存储 A/X语言信息与 Y语言信息配对数据的 MT训练数据表，以及在 MT训练数据表基础上得到的 A/X^Y的翻译模型。因此，需要釆集一定量的准确的 A/X语言数据和 Y语言数据来生成 MT训练数据表，并通过机器人（信息处理系统）的自学习（自训练）来形成 A/X Y的翻译模型。而形成 MT训练数据表是可以通过人工辅助理解来进行的。

图 1 示意性地示出了根据本发明一个实施例的自然表达处理方法的流程。

在步骤 Sll，系统接收自然表达信息（A语言信息），如前所述，该自然表达信息可以是文本信息、语音信息、图像信息、视频信息等。

在步骤 S21，判断机器人的理解能力是否成熟。其中，对于机器人理解是否成熟的判断，是基于在一定时间区间内（根据具体应用要求设定），机器人将 A语言信息转换成 X语言信息，然后将 X语言信息转换成 Y语言信息的结果 Yl，与人工将 Α语言信息直接转换成 Υ语言信息的结果 Υ2进行比较， Y1和 Y2相同的次数，除以比较的总次数，得到的百分比，就是机器人理解准确率。根据应用需要设定的机器人理解准确率，我们称之为 "机器人理解成熟阀值"。如果机器人理解准确率低于机器人理解成熟阀值，系统则认为机器人理解尚未成熟，不会釆用机器人转换结果 Yl，而仍继续釆用人工转换结果 Υ2，以保证系统对 Α语言信息理解的准确与稳定。同时，系统将 A 语言信息通过机器自动转换的 X语言信息（左侧语言），以及人工转换结果 Y2 (右侧语言 )加入 MT训练数据表中，供 MT机器人自训练使用。

如果机器人理解成熟了，则在步骤 S22让机器人自动将该自然表达 A直接转换为标准表达 Y; 如果机器人理解还未成熟，则在步骤 S23由机器人尝试将该自然表达 A转换为标准表达 Yl，同时在步骤 S24由 MAU座席将该自然表达 Α转换为标准表达 Y2。

在步骤 S32，若步骤 S21判断机器人理解能力已经成熟，则输出由机器人自动转换的结果 Y; 否则，输出有 MAU座席人工转换的结果 Y2。

可选地，在步骤 S31，对自然表达 A、机器人尝试转换的结果 Yl、 MAU 座席人工转换的结果 Y2进行如下的后续处理：将 A自动转换成 X语言信息 (左侧语言）连同 Y2 (右侧语言），作为一对新的配对数据放入 ΜΤ训练数据表中；将 Y1和 Υ2进行比较，用作『判断机器人理解是否成熟』的统计数据。可选地，将原始数据 Α保留，当未来 A X转换技术进一步发展成熟（转换准确率更高）时，更新 MT训练数据表的左侧语言数据。

图 2示意性地示出了根据本发明一个实施例的自然表达处理及回应方法的流程。

在图 2所示的处理中，首先如图 1的处理，在步骤 S12接收自然表达 A。然后在步骤 S31判断是否能够通过机器转换将自然表达 A转换为标准表达 Y。该步骤等同于图 1中步骤 S21。类似于图 1的处理，当在步骤 S31判断不能通过机器转换得到所需的标准表达时，在步骤 S32进行人工转换处理。

在实际应用中，可能存在即使通过人工处理仍不能理解所识别的自然表达或者理解客户所表达的需求，这时，在步骤 S33作出提示客户重新输入的回应，然后处理回到步骤 S12，接收客户再次输入的自然表达信息 A。 "提示客户重新输入的回应 "可以是，例如，语音提示"不好意思，请您再讲一遍您的需求"， "请您讲慢一些"；文字提示"不好意思，请您写具体些"；或者图像提示等。

在步骤 S34输出机器转换或人工转换的标准表达。在步骤 S35查询与该标准表达匹配的标准回应。标准回应可以是预先存储在数据库中的固定数据，也可以是预先在数据库中存储标准回应的基础数据，然后经系统运行，将基础数据与个案变量参数合成而生成标准回应。在一个实施例中，设置标准回应 ID来作为回应数据的主键，并在数据库中设置标准表达（Y语言信息）的需求代码与标准回应 ID的对应关系表，从而将标准表达（Y语言信息）的需求代码与回应数据相关联。以下的表 1〜表 3分别示意性示出了表达数据表、表达回应关系表和回应数据表的例子。可选地，标准表达与标准回应 ID可以是多对一的关系，如表 4所示。此外，在其它实施例中，由于标准表达（Y语言信息）的需求代码本身是编码化的，也可以直接用标准表达（Y 语言信息）的需求代码作为回应数据的主键。

收到了语骨 [表达 1] 转 5000块给我妈文字 [表达 2]

<转账失败页面截屏 > 图像 [表达 3]

2-5-1000 电话按键 [表达 4] 表 1

表 2

表 3 表达回应对应表 2

标准回应 ID 标准表达

[回应 80] [表达 74]

[回应 80] [表达 12] [回应 80] [表达 23]

[回应 81] [表达 31]

[回应 81] [表达 57] 表 4 如前所述，标准表达可以包括与自然表目关的信息，例如，表达类型，语言类型，方言类型，等等。例如，来自客户的自然表达为语音 "收到了"，通过转换后的标准表达查询得到标准回应为语音 "好，知道了，谢谢！ "；还例如，来自客户的自然表达为图像 "转账失败页面截屏"，通过转换后的标准表达查询得到标准回应为视频"转账纠错简易教程"。

如果数据库中没有与所述标准表达匹配的标准回应，则可以在步骤 S36 通过人工匹配与之相应的回应。人工匹配可以通过输入或选择标准回应 ID 来将标准表达与该标准回应 ID相关联，也可以直接将标准表达与回应数据相关联，还可以建立新的回应数据。找不到标准回应的原因可能是该标准表达是通过人工新添加的，也可能是因为没有匹配到相同类型的标准回应。然后，在步骤 S37输出机器匹配或者人工匹配的回应。可以根据不同的信息类型来调用或者生成回应的内容。例如，对于语音回应，可以回放真人录音或者输出通过 TTS ( Text To Speech语音合成）的语音；对于用户数字化操作，例如，电话按键顺序组合" 2-5-1000"，通过程序运行完成"信用卡还款 1000 元"的操作。

而对于例如， "转 5000块给我妈"的文字信息，需要通过运行程序进行"转账 5000元给 X女士"的操作，但是系统可能并不预先掌握 "X女士"的账户信息，一方面可能需要人工添加该账户信息以实现标准表达的转换，另一方面，即使实现了标准表达的转换，也可能查询不到对应的标准回应，而需要人工作出回应处理。这时，会生成新的回应数据（如操作程序），也会手动或者自动为该回应数据分配一个新的标准回应 ID，并将该标准回应 ID与上述转换的标准表目关联。于是，在实现对于客户的自然表达回应的同时，可以实现人工辅助理解和训练，更新表达一回应数据库。

根据本发明实施例的自然表达处理和应答方法，可以利用标准表达快速指向回应，从而使得客户无需再花长时间遍历复杂的常规功能菜单来寻找自己所需的自助服务。

另一方面，与常规的应答方式不同，人工操作主要限于后台的"决策"工作，包括确定标准表达（Y语言信息）需求代码，选择回应（或回应 ID )或者生成回应操作等，但不需要在前台通过通话或者文字输入（输入标准表达 ( Y语言信息）需求参数除外）等方式来与客户直接进行交流。从而可以大量节省人力资源，大幅提升工作效率。此外，系统对客户提供的标准化回应，相对于人工座席直接对客户提供的传统的自由式回应，不受人工座席的情绪、声腺、口音、业务熟练度等诸多因素影响，更能保证客户体验的稳定性。

再者，通过系统（机器人）的自动学习、训练及人工辅助理解，可以建立标准化的自然表达一标准表达一标准回应数据库，逐渐实现系统自动理解和回应。并且该数据库中的自然表达数据还可以具有颗粒度小、业务范畴窄、数据保真度高等优点，从而降低机器人训练难度，缩短机器人智能的成熟周期。

图 3示意性示出了根据本发明实施例的智能应答系统。如图 3所示，该智能应答系统包括智能应答设备 1 (相当于服务器端），以及呼叫设备 2 (相当于客户端），客户 8通过呼叫设备 2与智能应答设备 1通信， MAU人工座席 9 (系统服务人员）对智能应答设备 1进行人工操作。其中，智能应答设备 1包括对话网关 11，中央控制器 12， MAU工作站 13，和机器人 14。可选地，智能应答设备 1还包括训练器 15。

客户 8指的是机构远程销售和远程服务的对象。远程销售通常指的是机构通过自己专属的电话或互联网通道，以"呼出"的形式主动联系客户，试图对其推销自己的产品与服务。远程服务通常指的是机构的客户通过机构专属的电话或互联网通道，以"呼入"的形式主动联系机构，询问或使用机构的产品与良务。

呼叫设备 2可以是机构为了对客户 8进行远程销售（呼出业务）和向客户提供远程服务（呼入业务）而设立的专属电话通道或互联网通道。电话通道呼叫系统例如自动呼叫分配系统（ Automatic Call Distribution, ACD ) (如， Avaya的 ACD )，是机构通过后台的自动业务系统（例如，基于电话按键技术的传统 IVR系统，或者基于智能语音技术的新型 VP ( Voice Portal )语音门户系统）和人工座席，与客户 8以语音形式进行交互的对话通道。

互联网通道呼叫系统例如基于即时通讯 ( Instant Messaging， IM )技术的互联网呼叫中心系统（ internet Call Center， ICC)，是机构通过后台的客户自助系统（例如，自然语言处理系统（ Natural Language Processing， NLP ) ) 和人工座席，与客户 8以文字、语音、图像、视频等形式，进行交互的对话通道。

智能应答设备 1使得机构可以管控其后台的自动业务系统和人工座席，以及与客户 8之间以文字、语音、图像、视频等多媒体形式进行的对话，从而实现机构与客户间的标准化和自动化交互对话。

对话网关 11在智能应答设备 1中担当 "前置门户"的角色，主要职能包括：经由呼叫设备 2接收来自客户 8的无规则自然表达（以文字、语音、图像、视频）和规则化非自然表达（如以电话键盘按键等形式），发送给中央控制器 12进行后续处理；接收来自中央控制器 12的指令，实现对客户 8表达的回应（以文字、语音、图像、视频、程序等形式）。

如图 4所示，对话网关 11包括表达接收器 111，身伤^人证器 112，回应数据库 113和回应生成器 114。

表达接收器 111通过呼叫设备 2接收来自客户 8的表达。该表达可以是前述的各种无规则自然表达和规则化非自然表达。

可选地，在表达接收器 111之前设置身份认证器 112。该身份认证器 112 可以在对话的初始阶段识别和验证客户 8的身份。可釆用传统的 "密码输入" 技术（如：电话按键输入密码、键盘输入网站登录密码，等等）；也可釆用新的"密语 ( Pass-phrase ) +声纹（Voice-print )识别"技术；也可同时混合釆用以上两种技术。传统的密码验证技术虽然不方便，但早已被市场广泛接受和习惯使用，可在关键敏感的对话节点上（如，银行转账）作为首要的客户身份识别和验证手段；后者虽然方便很多，但尚未被市场广泛接受和习惯使用，可在非关键敏感的对话节点上（如，查询购物积分）作为大幅提升客户体验的全新的客户身份识别和验证手段，也可在关键敏感的对话节点上，作为增强前者安全性的辅助识别和验证手段。

设置身人证器 112，并釆用 "密语 + 声纹识别"的客户身份识别和验证方法，可以提升客户体验，使得客户无需再记忆多个不同密码；降低在 "密码输入"传统方法中密码被盗的安全风险；此外，将"密语 + 声纹识别"方法和 "密码输入"传统方法混合使用，既能被市场广泛接受，更能提升客户身份识别和验证的安全性。

回应数据库 113存储用以回应客户的回应数据。类似于以上表格中举例示出的，该数据可以包括以下多种类型：

文字：预编的文字，例如，网银 FAQ (常见问答）中的文字答案。

语音：预录的真人录音，或没有变量的 TTS语音合成录音，例如： "您好！这里是未来银行。请问有什么我可以帮到您的？ "。

图像：预制的图像，例如，北京地铁网络图。也包括非视频动画，例如：银行给客户介绍如何在网银系统进行国际汇款操作的 GIF文件、 FLASH文件，等等。

视频：预制的视频，例如，电熨斗供应商给客户演示如何使用它们的新产品。

程序：预编的一系列指令，例如，在客户以说话表达"我想看中国合伙人"，云端智能电视机将按照客户的要求进行操作回应客户：首先自动打开电视机，然后从云服务器端自动下载并緩存《中国合伙人》这部电影，最后开始播放。

模板：可填变量的文字、语音、图像、程序模板。

回应生成器 114接收中央控制器 12指令，通过调用和 /或运行回应数据库 113中的数据来生成对客户 8表达的回应。具体而言，可以按照指令中的标准回应 ID，从回应数据库 113中查询调用回应数据，或显示文字、图像，或播放语音、视频，或执行程序；也可以依指令回应数据库 113中调用模板，并将指令中传送的变量参数予以填充，或播放实时产生的 TTS语音合成（例如， "您已成功还款信用卡 5000元。 "其中， "5000元"为指令中的变量或显示一段文字，或显示一幅实时产生的图片或动画，或执行一段程序。

可选地，中央控制器 12可以对回应数据库 113中的数据进行维护和更新，包括回应数据、标准回应 ID等。

中央控制器 12接收来自表达接收器 111的客户需求表达信息 (包括：无规则自然表达和规则化非自然表达），并与机器人 14以及经由 MAU工作站 13与 MAU人工座席 9协同工作，从而将客户的无规则自然表达信息依前述的方法转换为标准表达，并根据该标准表达确定与之对应的标准回应 ID，然后将该标准回应 ID发送给回应生成器 114。可选地，中央控制器 12可以更新 MT训练数据表中的数据。

机器人 14是实施上述人工智能技术的应用机器人。机器人 14可以实施对文字信息、语音信息、图像信息、视频信息等自然表达（ A语言信息）的转换，得到标准表达（Y语言信息）。如前所述，当机器人 14的理解能力达到一定水平时，例如，在某个特定范畴的判断理解能力成熟时，其可以独立进行 A X Y的转换，而无需人工座席的辅助。 MT训练数据表可以设置在机器人 14内，也可以是外置数据库，在其中存储的标准表达数据（右侧语言 ) 的需求代码可以与标准回应 ID相关联。该数据库可以由中央控制器 12更新。另外，用于文字翻译、语音识别、图像识别、视频处理等的数据库可以是外置数据库，也可以设置在机器人 14内。

MAU工作站 13是智能应答设备 1与 MAU人工座席 9的接口。 MAU 工作站 13将经识别的自然表达或者客户原始表达呈现给 MAU人工座席 9。 MAU人工座席 9通过 MAU工作站 13输入或者选择标准表达，然后 MAU 工作站 13将该标准表达发送给中央控制器 12。可选地，如果需要人工辅助确定回应，则 MAU人工座席 9通过 MAU工作站 13输入或者选择回应（或者标准回应 ID )。

可选地，在智能应答设备 1中还可以包括训练器 15。该训练器 15用于训练机器人 14将自然表达转换为标准表达的能力。例如，训练器 15 利用 MAU人工座席 9的判断结果去训练机器人 11，不断提升机器人 11在各个范畴（例如，前述的业务范畴和次级业务范畴等）的机器人理解正确率。针对每个范畴，在机器人理解正确率达不到 "机器人理解成熟阀值，，的情况下，训练器 15将 MAU人工座席 9的标准表达转换结果与机器人 11的标准表达转换结果进行比较处理，如结果相同，相应增加该范畴"机器人判断准确次数" 和"机器人判断次数"各一次；否则，将人工转换结果添加进 MT训练数据表，作为新的机器人训练数据。训练器 15也可以指示机器人 14进行前述的"自学习"。

此外，训练器 15也可以用于对机器人 14进行诸如文字翻译、语音识别、图像识别、视频处理等人工智能技术的训练。训练器 15也可以对于 MT训练数据表、用于文字翻译、语音识别、图像识别、视频处理的数据库进行维护和更新。

可选地，训练器 15也可以与中央控制器 12集成在一起。

可选地，回应生成器 114和回应数据库 113可以独立于对话网关 11，也可以集成在中央控制器 12中。

智能应答设备 1可以实现前述的自然表达处理和应答方法。例如，对话网关 11通过表达接收器 111从呼叫设备 2接收来自客户 8的无规则自然表达信息，并将其发送到中央控制器 12; 中央控制器 12指示机器人 11将该无规则自然表达信息识别为计算机可处理的某种形式的语言信息及相关的表达信息，然后指示机器人 11将该语言信息及相关的表达信息转换为标准表达；如果机器人 11的理解力不够成熟或者未实现语料匹配，而不能完成标准表达的转换，则中央控制器 12指示 MAU工作站 13提示 MAU人工座席 9进行标准表达的人工转换； MAU人工座席 9将机器人 11识别的语言信息及相关表达信息转换为标准表达，并通过 MAU工作站 13输入并发送到中央控制器 12, 可选地， MAU人工座席 9可以直接将未经识别的无规则自然表达信息转换为标准表达；中央控制器 12 查询表达一回应数据库，检索出与标准表达匹配的标准应答 ID，如果无匹配结果，则再通过 MAU工作站 13提示 MAU 人工座席 9进行标准回应的选择和输入相应的标准回应 ID，可选地， MAU 人工座席 9也可以直接将标准表达与回应数据相关联，或者建立新的回应数据；中央控制器 12指示回应生成器 114调用和 /或运行回应数据库 113中的数据来生成对客户 8表达的回应；然后，对话网关 11将回应通过呼叫设备 2 反馈给客户 8; 可选地，中央控制器 12根据 MAU人工座席 9确定或添加的标准表达或标准回应分别维护和更新 MT训练数据表或回应数据库，并且相应维护和更新表达一回应数据库。

图 5示意性地示出了一个由 MAU工作站呈现给 MAU人工座席 9的操作界面的例子。如图 5所示， MAU工作站 13的操作界面包括：客户表达显示区 131，对话状态显示区 132，导航区 133，范畴选择区 134和快捷区 135。

客户表达显示区 131显示客户的自然表达，例如，呈现为从文字、图像、语音转换而成的文本等形式。

对话状态显示区 132该区显示客户 8与 MAU人工座席 9或机器人 14之间的对话实时状态信息，如：对话来回次数、对话总时长、客户信息等等。该显示区域也可以不设置。

导航区 133显示 MAU人工座席 9目前已选择到达的范畴。该区左端显示目前范畴路径的文字版本（如图中所示：银行信用卡），右端显示该范畴对代码（如图中所示： "12"， " 代表"银行"范畴， "2"代表在 "银行 "范畴的下一级范畴"信用卡"。与前述的例子不同，在该应用中，用" 1"代表"银行"范畴，而未用 "BNK"，二者的标识作用是相同的）。

范畴选择区 134供 MAU人工座席 9选择下一级范畴。如图中所示： MAU 人工座席 9 已进入到"银行"范畴的下一级范畴"信用卡，，，而"信用卡"这一级范畴下辖 7个子范畴： "激活新卡"、 "申请新卡及申请进度查询"、 "还款" ......。如客户 8的表达是"我的信用卡能透支太少了。，，， MAU人工座席 9就在当前范畴"银行信用卡"中选择 "7"，导航区将更新显示"银行信用卡调整信用额度 127", 进入再下一级范畴。 MAU人工座席 9也可以在看到客户 8 的表达后，在键盘上直接输入" 127"，到达目标范畴 "银行信用卡调整信用额度"。这样，客户 8无需再花长时间遍历复杂的功能菜单树寻找自己所需的自助服务，只需直接说出自己的需求， MAU人工座席 9便能快捷地帮助客户直接启动 "调整信用卡额度"处理，从而，用户体验变得容易便捷，而目前传统 IVR系统的自助服务流程利用率将得到大幅提升。

快捷区 135为 MAU人工座席 9提供了常用快捷键，例如， "-"返回上层范畴、 "0"转接人工座席、 "+，，返回顶层范畴（在这个例子中，就是根范畴"银行" )。快捷区 135也可以为 MAU人工座席 9提供了其它快捷键。快捷区 135 可以提高 MAU人工座席 9的处理速度。快捷区 135也是可选设置区域。

这里只给出了 MAU工作站 13的操作界面的一个例子，其用于 MAU人工座席 9对于标准表达的转换处理。也可以通过类似的操作界面来进行对于回应的人工处理。

根据本发明实施例的智能应答设备可以由一台或多台计算机、移动终端或其它数据处理设备实现。

根据本发明实施例的自然表达处理和应答方法、设备及系统，可以利用标准表达快速指向回应，从而使得客户无需再花长时间遍历复杂的常规功能菜单来寻找自己所需的自助服务。

通过机器人的自动学习、训练及人工辅助理解，可以建立标准化的自然表达信息一标准表达一标准回应数据库，逐渐实现系统自动理解和回应。并且该数据库中的自然表达信息数据还可以具有颗粒度小、业务范畴窄、保真度高等优点，从而降低机器人训练难度，缩短机器人智能的成熟周期。

与常规的应答方式不同，人工操作主要限于后台的"决策"工作，包括确定标准表达（ Y语言信息）的需求代码，选择回应（或回应 ID )或者生成回应操作等，但不需要在前台通过通话或者文字输入（输入标准表达（Y语言信息）的需求参数除外）等方式来与客户直接进行交流。从而可以大量节省人力资源，提升工作效率。此外，系统对客户提供的标准化回应，相对于传统人工座席直接对客户提供的传统的自由式回应，不受人工座席的情绪、声腺、口音、业务熟练度等诸多因素影响，更能保证客户体验的稳定性。

此外，可以以具体的业务范畴（节点）为单位实现机器人的自动学习、训练和成熟度评价，从而逐点实现整体系统的智能化。在实际应用中，该"机器人理解逐点成熟"机制更容易得到机构的认可与接受，因为风险相对来说极低，旧系统改造成本不高，且对日常运营不会造成负面影响。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

权利要求书

1. 一种自然表达处理方法，其中，包括：

对于来自用户的自然表达进行识别，得到计算机可处理的某种形式的语言信息；以及

将识别得到的语言信息转换为编码形式的标准表达。

2. 根据权利要求 1所述的自然表达处理方法，其中，所述标准表达包括体现用户需求的需求代码。

3. 根据权利要求 2所述的自然表达处理方法，其中，所述需求代码用数字编码表示。

4. 根据权利要求 2所述的自然表达处理方法，其中，所述标准表达还包括进一步体现用户具体需求的需求参数。

5. 根据权利要求 1-4中任意一项所述的自然表达处理方法，其中，所述语言信息是由利用建模工具对语音形式的所述自然表达进行切割和转换得到的语言信息单元构成的。

6. 根据权利要求 1-4中任意一项所述的自然表达处理方法，其中，所述语言信息是由音素、字和短语中的一种构成的。

7. 根据权利要求 1-6中任意一项所述的自然表达处理方法，其中，基于所述语言信息与所述标准表达的 MT训练数据表来实现从所述语言信息到所述标准表达的转换。

8. 根据权利要求 1-7中任意一项所述的自然表达处理方法，其中，在识别所述自然表达的同时得到与该自然表目关的信息，并将此信息转换为所述标准表达的一部分。

9. 一种人工智能机器人的训练方法，其中，包括：

建立 MT训练数据表，该 MT训练数据表包括有：通过转换自然表达所得到的计算机可处理的语言信息，编码化的标准表达以及所述语言信息和所述标准表达的对应关系；

使得人工智能机器人对于所述 MT训练数据表中已有的所述语言信息的较，找出所述语言信息元素的排列组合与所述标准表达元素的排列组合之间的对应关系。

10.根据权利要求 9所述的人工智能机器人的训练方法，其中，所述语言信息的元素是利用建模工具对语音形式的所述自然表达进行切割和转换得到的语言信息单元。

11.根据权利要求 9或 10所述的人工智能机器人的训练方法，其中，所述 MT训练数据表的数据可以从外部数据库导入，也可以通过人工辅助理解来进行生成和添力口。

12. 一种自然表达处理方法，其中，包括：

输入自然表达；

识别所述自然表达，得到计算机可处理的某种形式的语言信息；判断是否能够通过机器转换将所述语言信息转换为编码化的标准表达；如果判断不能通过机器转换得到所需的标准表达，进行人工转换处理；以及

输出机器转换或人工转换的标准表达。

13.根据权利要求 12所述的自然表达处理方法，其中，所述判断是对于机器人理解是否成熟的判断，其中，对于机器人理解是否成熟的判断，是基于对一定时间区间内的机器人理解准确率的评估来进行的。

14. 一种自然表达处理及回应方法，其中，包括: 输入自然表达；

识别所述自然表达，得到计算机可处理的某种形式的语言信息及相关的表达类型信息；

判断是否能够通过机器转换将所识别的自然表达和表达类型信息转换为编码化的标准表达；

如果判断不能通过机器转换得到所需的标准表达，进行人工转换处理；调用或生成与所述机器转换或者人工转换的标准表达相匹配的标准回应；

以与所述表达类型信息对应的方式输出所述生成的标准回应。

15.根据权利要求 14所述的自然表达处理及回应方法，其中，所述标准回应是预先存储在数据库中的固定数据，或者基于变量参数和预先在数据库中存储的标准回应的基础数据来生成所述标准回应。

16. 一种自然表达处理及回应设备 ( 1 )，其中，包括：对话网关（ 11 )，中央控制器（12 )， MAU工作站（13 )，机器人（14 )，表达数据库，回应数据库（113 )和回应生成器（114 )，其中，

对话网关（ 11 )接收来自用户（ 8 )的自然表达，发送给中央控制器（ 12 ) 进行后续处理，并且将对所述自然表达的回应发送给用户（8 );

中央控制器（12 )接收来自所述对话网关（11 ) 的自然表达，并与机器人（ 14 ) 以及 MAU工作站（ 13 )协同工作，将该自然表达转换为编码化的标准表达，并根据所述标准表达指示回应生成器（ 114 )生成与该标准表达对应的标准回应；

机器人（14 )根据所述中央控制器（12 ) 的指示，识别所述自然表达，得到计算机可处理的某种形式的语言信息，并且利用所述表达数据库将该语言信息转换为所述标准表达；

MAU工作站（ 13 )将经识别的自然表达或者所述来自用户（ 8 )的自然表达呈现给外部的 MAU人工座席（ 9 )， MAU人工座席（ 9 )通过 MAU工作站（ 13 )输入或者选择标准表达，然后 MAU工作站（ 13 )将该标准表达发送给中央控制器（12 ); 表达数据库用于存储表目关数据，包括：与所述自然表目关的所述语言信息数据，与所述标准表达相关的标准表达数据，以及与所述语言信息和所述标准表达之间的关联相关的数据；

回应数据库（113)存储回应相关数据，包括供调用的标准回应数据和 / 或用于生成回应的数据；

回应生成器（114)接收中央控制器（12) 的指令，通过调用和 /或运行回应数据库（113) 中的数据来生成对所述用户（8) 的自然表达的回应。

17.根据权利要求 16所述的自然表达处理及回应设备（ 1 )，其中，中央制器（12) 更新所述表达数据库和 /或所述回应数据库（113)。

18.根据权利要求 16或 17所述的自然表达处理及回应设备（ 1 )，其中，所述设备 ( 1 )进一步包括训练器 ( 15 )，该训练器 ( 15 )用于训练所述机器人（ 14 )将所述自然表达转换为所述标准表达。

19. 根据权利要求 16-18 中任何一项所述的自然表达处理及回应设备 (1)，其中，所述对话网关（11)进一步包括身份认证器（112)，用于在接收所述自然表达前识别和验证所述用户（8)的身份，其中，用户身份验证方法至少包括密语和声纹识别。

20. —种自然表达处理及回应系统，其中，包括：智能应答设备（1)，以及呼叫设备（2)，用户（8)通过呼叫设备（2)与智能应答设备（1)通信， MAU人工座席（9)对智能应答设备 (1)进行操作，

其中，所述智能应答设备（ 1 )包括：对话网关（11)，中央控制器（12)， MAU工作站（13)，机器人（14)，表达数据库，回应数据库（113)和回应生成器 (114),

对话网关（ 11 )从呼叫设备（ 2 )接收来自用户（ 8 ) 的自然表达，并将其发送到中央控制器（12);

中央控制器（ 12 )指示机器人（ 14 )从所述自然表达识别出计算机可处理的某种形式的语言信息及相关的表达信息，然后指示机器人 (14)将该语言信息及相关的表达信息转换为标准表达；如果机器人（14) 的理解力不够成熟，而不能完成标准表达的转换，则中央控制器（ 12 )指示 MAU工作站（ 13 )提示 MAU人工座席（ 9 )进行标准表达的人工转换， MAU人工座席（9)将机器人（14)识别的所述语言信息及相关表达信息转换为标准表达，并通过 MAU工作站（ 13 )输入并发送到中央控制器（12);

中央控制器（12)基于所述标准表达指示回应生成器（114)调用和 /或运行回应数据库（113)中的数据来生成对用户（8)的所述自然表达的回应；对话网关（11)将所述回应通过呼叫设备 (2)反馈给用户（8)。