WO2015062284A1 - 自然表达处理方法、处理及回应方法、设备及系统 - Google Patents

自然表达处理方法、处理及回应方法、设备及系统 Download PDF

Info

Publication number
WO2015062284A1
WO2015062284A1 PCT/CN2014/079945 CN2014079945W WO2015062284A1 WO 2015062284 A1 WO2015062284 A1 WO 2015062284A1 CN 2014079945 W CN2014079945 W CN 2014079945W WO 2015062284 A1 WO2015062284 A1 WO 2015062284A1
Authority
WO
WIPO (PCT)
Prior art keywords
expression
standard
natural
response
information
Prior art date
Application number
PCT/CN2014/079945
Other languages
English (en)
French (fr)
Inventor
余自立
Original Assignee
茵鲁维夫有限公司
余自立
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US15/032,603 priority Critical patent/US9760565B2/en
Priority to JP2016546460A priority patent/JP6182272B2/ja
Priority to EP14856958.5A priority patent/EP3062239A4/en
Priority to CN201480059550.9A priority patent/CN105723362B/zh
Priority to KR1020167014285A priority patent/KR20160077190A/ko
Priority to CA2929018A priority patent/CA2929018C/en
Application filed by 茵鲁维夫有限公司, 余自立 filed Critical 茵鲁维夫有限公司
Priority to RU2016120612A priority patent/RU2672176C2/ru
Publication of WO2015062284A1 publication Critical patent/WO2015062284A1/zh
Priority to IL245322A priority patent/IL245322B/en
Priority to US15/141,576 priority patent/US9753914B2/en
Priority to ZA2016/03638A priority patent/ZA201603638B/en
Priority to HK16108004.9A priority patent/HK1223164A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Definitions

  • the present invention relates to an information processing method, and in particular to a processing method for natural expression of humans, a processing and response method for the natural expression, and an information processing device and an information processing system to which the processing and response method are applied.
  • Machine translation (MT, Machine Translation, commonly known as “machine turning”) belongs to computational linguistics
  • Some current translation tools such as Alta Vista Babelfish, sometimes get understandable translation results, but in order to get more meaningful translation results, it is often necessary to properly edit the input statements to facilitate computer program analysis.
  • the purpose of using machine translation by the public may be simply to know the gist of the original sentence or paragraph, not the exact translation.
  • machine translation has not yet reached the level that can replace professional (manual) translation, and it has not yet become a formal translation.
  • Natural Language Processing is a branch of the field of artificial intelligence and linguistics. In this field, we explore how to deal with and apply natural language. Natural language recognition refers to letting computers "understand” the substantive meaning behind human language.
  • Natural language generation systems transform computer data into natural language.
  • Natural language understanding systems transform natural language into a more manageable form of computer programs.
  • NLP is a very attractive way of human-computer interaction.
  • Early language processing systems such as SHRDLU, worked quite well when they were in a limited "building block world" with limited vocabulary sessions. This makes researchers very optimistic about this system.
  • SHRDLU high-language processing systems
  • researchers very optimistic about this system.
  • the system expanded into an ambiguous and uncertain environment filled with the real world, they quickly lost confidence. Understanding the natural language requires extensive knowledge of the external world and the ability to manipulate it, natural language cognition, and is also considered an AI-Complete problem.
  • Statistical-based natural language processing uses probabilistic and statistical methods to solve the problems of natural language processing based on grammar rules. Especially for long sentences that are highly ambiguous, there are thousands of possibilities when applying actual grammar analysis. The methods used to deal with these highly ambiguous sentences are often applied to corpora and Markov models.
  • the technology of statistical natural language processing is mainly derived from the sub-fields related to learning behavior in artificial intelligence technology - Machine Learning and Data Mining.
  • Natural language processing technology has a wide range of applications in practice. For example, interactive voice response and Internet call center systems.
  • Interactive Voice Response is a general term for voice-based value-added services based on telephone.
  • Many institutions such as banks, credit card centers, telecom operators, etc.
  • IVRS Interactive Voice Response System
  • Customers can dial a specific phone number, enter the system, and type the appropriate options or profiles according to the system's instructions.
  • Preset transactions (such as transfer, change password, change contact phone number, etc.).
  • the Internet Call Center System (ICCS) is a new type of call center system that has emerged in recent years. It uses popular instant messaging (IM) technology to allow organizations and their customers to conduct major Internet problems. Text-based real-time communication is applied to the organization's customer service and remote sales. A human agent using ICCS can communicate with more than two customers at the same time.
  • IM instant messaging
  • the text-based ICC system is a variant of the voice-based IVR system, which is a necessary tool for communication between the organization and its customers (whether customer service or remote sales), both of which require the height of the artificial seat. participate. Therefore, like the IVR system, the ICC system is also difficult to meet the needs of the organization to effectively increase the customer self-service ratio and significantly replace the manual workload.
  • the traditional speech recognition technology is based on the lack of accuracy and stability of the speech recognition results, using the keyword search technology, using the "exhaustive method” to do the semantic analysis of speech.
  • many speech recognition technology companies have spent a lot of manpower and money on "Transcription” and “Keyword Spotting”, and they have been training voice robots for a long time, but the actual effect It is often far from the ideal effect.
  • a natural expression processing method comprising: The natural expression from the user is identified, and some form of language information that can be processed by the computer is obtained; and the recognized language information is converted into a standard expression of the encoded form.
  • the standard expression includes a demand code reflecting the user's needs.
  • the demand code is represented by a digital code.
  • the standard expression further includes a demand parameter that further reflects the specific needs of the user.
  • the language information is optionally composed of language information units obtained by cutting and converting the natural expression of the voice form using a modeling tool.
  • the language information is optionally composed of one of a phoneme, a word, and a phrase.
  • the conversion from the language information to the standard expression is alternatively implemented based on the language information and the standard expressed MT (Machine Translation Machine Translation) training data table.
  • information related to the natural expression is obtained at the same time as the natural expression is recognized, and this information is converted into a part of the standard expression.
  • a training method for an artificial intelligence robot including: establishing an MT training data table, the MT training data table including: computer-processable language information obtained by converting natural expression, a standard expression of the encoding and a correspondence between the language information and the standard expression; causing the artificial intelligence robot to perform various permutation combinations and standard expressions of elements of the language information already existing in the MT training data table
  • the various permutation combinations of the elements are subjected to a loop iterative comparison to find a correspondence between the permutation combination of the language information elements and the permutation combination of the standard expression elements.
  • the data of the MT training data table may be imported from an external database, or may be generated and added by manual assisted understanding.
  • a natural expression processing method comprising: inputting a natural expression; identifying the natural expression to obtain some form of language information that can be processed by a computer; Determining whether the language information can be converted into a coded standard expression by machine conversion; if it is judged that the required standard expression cannot be obtained by machine conversion, manual conversion processing is performed; and a standard expression of machine conversion or manual conversion is output.
  • the determination is a judgment as to whether the robot understands maturity, wherein the judgment of whether the robot understands maturity is based on the evaluation of the robot understanding accuracy rate in a certain time interval. ongoing.
  • a natural expression processing and response method including: inputting natural expression; identifying the natural expression, obtaining some form of language information and related expression type information that can be processed by a computer; Whether the recognized natural expression and expression type information can be converted into a coded standard expression by machine conversion; if it is judged that the required standard expression cannot be obtained by machine conversion, manual conversion processing is performed; calling or generating conversion with the machine or The standard response of the manually converted standard entry matches; the generated standard response is output in a manner corresponding to the expression type information.
  • the standard response is fixed data pre-stored in a database, or the standard data and variable parameters are stored based on standard responses stored in a database in advance. Respond.
  • a natural expression processing and response apparatus comprising: a conversation gateway, a central controller, a MAU workstation, a robot, an expression database, a response database, and a response generator, wherein the conversation gateway receives from The user's natural expression is sent to the central controller for subsequent processing, and the response to the natural expression is sent to the user; the central controller receives the natural expression from the conversation gateway and works with the robot and the MAU workstation to convert the natural expression A standard expression for coding, and a standard response indicating that the response generator generates a standard response corresponding to the standard expression; the robot recognizes the natural expression according to the instruction of the central controller, and obtains some form of language information that can be processed by the computer, and The language information is converted into a standard expression by using an expression database; the MAU workstation presents the recognized natural expression or the natural expression from the user to an external MAU artificial agent, and the MAU artificial agent inputs or selects a standard expression through the MAU workstation.
  • the MAU workstation then sends the standard expression to the central controller;
  • the expression database is used to store the table view data, including: the language information data related to the natural table, and the standard expression data related to the standard table And data related to the association between the language information and the standard expression;
  • the response database stores the response related data, including for invoking The standard response data and/or data used to generate the response;
  • the response generator receives instructions from the central controller to generate a response to the user's natural representation by invoking and/or running the data in the response database.
  • the central controller updates the database and/or the response database.
  • the device further includes a trainer for training the robot to convert the natural expression into a standard expression.
  • the conversation gateway further includes an identity authenticator, configured to identify and verify the identity of the user before receiving the natural expression information, where the user identity verification method includes at least the cipher language and Voiceprint recognition.
  • a natural expression processing and response system comprising: an intelligent answering device, and a calling device, the user communicates with the smart answering device through the calling device, and the MAU artificial agent operates the smart answering device, wherein
  • the intelligent answering device comprises: a conversation gateway, a central controller, a MAU workstation, a robot, an expression database, a response database and a response generator, and the conversation gateway receives the natural expression from the user from the calling device and sends it to the central controller;
  • the controller instructs the robot to recognize some form of language information and related expression information that the computer can process from the natural expression, and then instructs the robot to convert the language information and related expression information into a standard expression; if the understanding of the robot is not mature enough, However, the conversion of the standard expression cannot be completed, and the central controller instructs the MAU workstation to prompt the MAU artificial agent to perform manual conversion of the standard expression, and the MAU artificial agent converts the language information and related expression information recognized by the robot into a standard table.
  • the intelligent answering device comprises: a
  • natural expression can be converted into a coded standard expression, since the conversion of the standard expression converts the semantics of the natural expression into encoding and parameters without precise verbatim translation, It can reduce the accuracy requirements of machine translation, reduce the complexity of the database used to implement expression conversion (machine translation), improve the speed of data query and update, and improve the performance of intelligent processing.
  • the relatively simple coding expression can also reduce the workload of manual intervention and improve the efficiency of manual intervention.
  • the natural expression processing and response method, device and system can express a fast pointing response by using a standard expression, so that the client does not need to spend a long time traversing complex conventional functions. Menu to find the self-service you need.
  • a standardized natural expression-standard expression-standard response database can be established, and the system automatically realizes and responds gradually. And the database can also have the advantages of small granularity, knowledge category, high data fidelity, etc., thereby reducing the difficulty of robot training and shortening the robot intelligence.
  • FIG. 1 schematically shows a flow of a natural expression processing method according to an embodiment of the present invention
  • FIG. 2 is a flow chart schematically showing a natural expression processing and response method according to an embodiment of the present invention
  • FIG. 3 is a schematic illustration of an intelligent response system in accordance with an embodiment of the present invention.
  • Figure 4 further illustrates a portion of the structure of the intelligent answering device of the system of Figure 3;
  • Fig. 5 schematically shows an example of an operation interface presented to a human agent by a MAU workstation
  • Figure 6 shows an example of identifying voice information
  • Fig. 7 shows an example of converting a collected sound wave into an X element using a Gaussian mixture model
  • Fig. 8 shows an example of conversion from a collected sound wave (A language information) to Y language information
  • machine translation As mentioned earlier, in such applications, the requirement for machine translation is not literally exact, but rather the need to translate the customer's natural expression into information that the system can understand, thus providing the customer with a response corresponding to their expression. That is to say, the machine translation here focuses on the understanding of the substantive meaning behind the human language, so that the actual intention or demand of the customer is "understood" from the natural expression in a form that is easier to handle in a computer program.
  • the natural expression from the user is recognized or converted, and some form of language information that can be processed by the computer is obtained, and then the recognized language information is converted into a standard of some form. expression.
  • a language information we call it "physical layer language information", hereinafter also referred to as "A language information”.
  • a language information we call it "physical layer language information", hereinafter also referred to as "A language information”.
  • a language information Through a certain modeling tool, basic automatic recognition or conversion is performed to obtain a first logical layer language (hereinafter referred to as "X language”) information expressed in a combination of several basic elements (hereinafter referred to as "X elements").
  • Y language information A standard expression of some form generated by re-converting X language information obtained or converted by A language information
  • Human natural expression methods are various.
  • the natural expression from customers that is, "A language information” can be divided into the following four categories: text information, voice information, image information, and animation information.
  • the text information expression can be: The customer expresses himself by inputting text through the keyboard. For example, the customer types "How much money is in my savings account?" on the Internet channel call center user interface of a bank; the image information expression can be: Customers express themselves through images, for example, customer access Through the computer desktop screen capture tool, the error information of a certain software will be used to express the problem encountered by the image; the voice information expression can be: The customer expresses himself by speaking, for example, the customer and a bank's service hotline (telephone) The channel call center) customer service commissioner talks, during the phone said: "What do you mean by that? I don't understand too much"; animation (or "video”) information can be: Customers shake their heads in front of the camera to express I don't agree.
  • the customer's natural expression is automatically recognized or converted to obtain information expressed in a certain language.
  • the A language information is voice information
  • the sound wave waveform information can be collected by the modeling tool and automatically recognized or converted into a certain (corresponding to voice information) X language by the system (smart robot);
  • the A language information is a graphic Information, for example, the graphical pixel information can be collected by the modeling tool and automatically recognized or converted to (in the image information) X language by the system (smart robot);
  • the A language information is animation information, for example, by modeling The tool collects graphic pixel information and image change speed information and automatically recognizes or converts to (in correspondence with the animation information information) X language by the system (smart robot); if the A language information is text information, no conversion is required.
  • the X language information automatically converted from the A language information or the text information that is not converted is "translated” into a regularized standard expression (Y language information) that the computer or other processing device can "understand".
  • the Y language information can be automatically processed by the computer business system.
  • the regularized standard expression can be implemented with regularized coding
  • Y language information For example, the following coding methods are used, which include industry code, industry service code, organization code, agency business code, and express information code.
  • Dialect code (3 digits 1-999)
  • the industry code indicates the industry in which the service provider is directed by the irregular natural expression (A language information) from the customer.
  • a language information For example, it can be represented by 2 English letters, which can cover 676 industries, optionally, increase A sub-industry code of 3 English letters can add 17576 sub-industries covering each industry.
  • the code can basically cover all common industries;
  • the industry business code represents the service demand pointed to by the customer's A language information, and can also be represented by multiple digits, for example, encoding with 10 digits, can cover More industry business areas;
  • the organization code indicates the entity that provides the service from the customer's A language information, for example, can identify the country and city where the organization is located;
  • the agency business code indicates the internal personalized business division of the service provider. It is convenient for the organization to carry out personalized internal management;
  • the expression information code indicates the identification information of the customer's A language information itself, which may include the type of information, the type of language, etc., represented by numbers and letters.
  • Example 1 FSBNK27100000000860109558800000000000000000002zh-CN003 where,
  • the agency code is,
  • the agency business code is,
  • the A language information corresponding to the Y language information may be, for example, "My credit card amount is too small”, “I want to increase my credit card amount”, “I want to reduce my credit card limit”, “I need to adjust the credit card limit” and other voice messages.
  • the industry code, agency code, and agency business code described above may be preset as system defaults. That is to say, the business code and the expression information code can be obtained only from the A language information provided by the client, in which case the Y language information can be expressed as "271000000002zh-CN003"; or, if it is 3 bits for a specific application If the number indicates that the industry business code is sufficient, it can be further expressed as "27102zh-CN003"; further, if it is only for voice service, it can be expressed as "271zh-CN003"; if only the customer's demand expression is considered, care is not concerned. Express your own type letter Interest, even with "271".
  • Example 2 TVTKT11200000000014047730305000000000001240003fr-CH000
  • TKT Ticketing Ticketing (Sub-Industry)
  • ⁇ 1120000000 Level 1 industry business area 1 (Airline ticket) Secondary industry business category 1 (Air ticket change) Level 3 industry business category 1 (Deferred) 0000000 (No more subdivision)
  • the A language information corresponding to the Y language information is obtained by image recognition.
  • the above-mentioned industry code and organization code can be preset as the system default value.
  • the Y language information can be expressed as "11200000001240003fr-CH000"; if only the customer's demand expression is considered, and the type information of the expression itself is not concerned, only "112000000012400" can be used; if it is for a specific application 3
  • the digits represent the industry business code, and the three digits represent the agency business code, which can only be represented by "112124".
  • the natural expression from the customer often reflects the specific needs of the customer.
  • the customer's A language information is automatically converted into X language information or language information without conversion (when A language information is text)
  • the X language information or the text language information is then converted into a standard expression (Y language information) of the encoded form.
  • the Y language information may include industry code, industry business code, agency code, agency business code, and expression information generation. code.
  • the A language information may also include specific parameters (which may be referred to as "demand parameters") in the context of customer requirements, such as: “Transfer 5000 to Zhang San” (Example 1), "I want to see a The movie, called “Chinese Partner” (Example 2) and so on.
  • a particular set of demand codes (eg, including one or more of the aforementioned industry code, industry business code, agency code, agency business code, and express information code) corresponds to a particular set of parameters.
  • the demand code of "watching movie” is 123
  • the corresponding parameter set may include parameters: movie name.
  • the Y language information corresponding to this A language information is "123 ⁇ Chinese Partner".
  • 123 is the requirement code
  • the five Chinese characters in ⁇ > are the demand parameters.
  • the foregoing process of converting a customer's A language information into a language-formed information that can be processed by a computer can be realized by a voice signal processing technology, a voice recognition technology, an image recognition technology, and a video processing technology. These technologies may be existing. Technology.
  • the coding standard expression idea according to an embodiment of the present invention can also be applied to the recognition process of natural expression.
  • Fig. 6 exemplarily shows the processing of voice information.
  • the processing from A language to D language is realized.
  • the correspondence between the "X language” information and the "A language” information in Fig. 6, and the correspondence between the "X language” information and the "B language” information only serve as a demonstration.
  • the A language, sound wave is the physical layer data collected by a sonic collection device such as a microphone.
  • the X language is the first logical layer data obtained after performing speech signal processing on the A language data, and is referred to as "X language" in the present invention.
  • the X language is a language formed by various combinations of X elements.
  • the X element is a system that uses a modeling tool such as the Gaussian Mixture Model (GMM) to automatically cut the sound waves into different columnar elements of different heights.
  • GMM Gaussian Mixture Model
  • Figure 7 shows an example of converting a collected sound wave (represented by a histogram) into an X element (represented by a vector quantization histogram) using a Gaussian mixture model.
  • the number of X elements can be controlled within a certain range (for example, below 200).
  • a combination of 2-bit ASCII characters is defined as an ID of an X element, as shown in FIG.
  • the cut acoustic unit and the X element are - corresponding, Since the A language information can be regarded as a combination of sound wave units, and the X language information is a combination of X elements, the conversion (or "recognition") relationship from the A language to the X language in FIG. 6 is a "many-to-many" relationship.
  • An example of an X element represented by an ASCII character is shown in FIG.
  • B language is a language formed by various arrangement and combination of B elements, and is the second logical layer data in Fig. 6. All or part of the X elements are arranged in combination to form the B element, so it can be understood that the X language is converted into the B element, and the B element constitutes the B language. Therefore, the conversion relationship from X language to B language is also a "many-to-many" relationship.
  • the B element can be a phoneme, and some of the B elements are combined to form a syllable.
  • the "phoneme” and “syllable” here have the same meaning in terms of linguistics.
  • An example of the B element is shown in Figure 6, and these examples are Chinese (Chinese) phonemes.
  • the "C language” is a language formed by various combinations of C elements, and is the third logical layer data in Fig. 6. All or part of the B element is arranged in combination to form a C element, so it can be understood that the B language is converted into a C element, and the C element constitutes the C language. Therefore, the conversion relationship from B language to C language is also a "many-to-many" relationship. If the linguistic system of phonemes and syllables is used, the C element corresponds to the "word" in natural language. An example of the C element is shown in Figure 6, and these examples are Chinese words.
  • the "D language” is a language formed by various combinations of D elements, which is the fourth logical layer data in Fig. 6. All or part of the C elements are arranged in combination to form a D element, so it can also be understood that the C language is converted into a D element, and the D element constitutes a D language. Therefore, the conversion relationship from C language to D language is also a "many-to-many" relationship. If the linguistic system of phonemes, syllables, and words is used, the D element corresponds to the "word” or "phrase” in natural language. An example of the D element is shown in Figure 6, and these examples are Chinese words.
  • the "Y language” is the fifth logical layer data (as shown in FIG. 8), and refers to the language information that reflects the "meaning” or “meaning” obtained by understanding the original natural language information A.
  • the "standard expression” of righteousness is a form of "Y language”. According to an embodiment of the present invention, for example: the banking industry can use the service code "21" to represent the meaning of "credit card loss”;
  • Fig. 9 schematically shows a layer-by-layer conversion process from the collected sound waves (A language information) to the Y language information.
  • Sound wave A language information
  • X element X language information
  • phoneme B language information
  • word C language information
  • D language information D To “word” (D language information D)
  • meaning or “meaning” (Y language information)
  • Y language information it is five conversions (translation) of information in six languages.
  • the path information of the arrangement and combination of the elements of the five languages is selected to find or correspond to the information data of the sixth language, that is, the target language information. Y.
  • the robot also has the ability to convert these five information languages.
  • these five-step conversions can be divided into three phases. In these three phases, in order to train the voice robot, manual assisted recognition is required.
  • the first stage From linguistic information (sound waves) to C language information (words).
  • the two-step conversion from A language information (sound wave) to B language information (phoneme) is generally automatically performed by the robot more accurately due to the information extraction and conversion algorithm (such as the Gaussian mixture model described above) by means of the language information X.
  • a conversion from B language information (phoneme) to C language information (word) may result in a higher error rate.
  • the original language information input by the customer is "Pizza auction is finished”. Due to the customer's pronunciation or accent, "Table tennis” may be identified as "flat”.
  • transfer transcription I
  • a language information A language information
  • C language information A language (sound wave) language for the robot (word) Conversion/translation relationship.
  • the second stage from C language information (words) to D language information (words, phrases).
  • words C language information
  • words, phrases D language information
  • the conversion from word to word is also ambiguous.
  • the recognition from sound wave to word is accurate, the result of the order of "table tennis auction finished” is obtained, but it will still be converted into at least “table bat.” + Selling + finished “and “table tennis + auction + finished”
  • the two results the meaning is obviously different.
  • manual assisted identification can be used to correct it.
  • Keyword Spotting The manual auxiliary recognition at this stage is called Keyword Spotting, and can also be referred to as "cut word”, which is the combination of “words” (C language information) that the word-cutting person will transfer to form “words (key Word)” (D language information), that is, the conversion/translation relationship of the C language (word) language (word) is defined for the robot. Whether the word is accurate or not depends on the degree of mastery of the business knowledge. For different fields, people who need to be familiar with the business content and terminology of the field will be able to perform word-cutting operations, and the cost will be improved compared with the transfer.
  • the third stage From D language information to Y language information, that is, meaning understanding. Only words that are arranged in a certain order often do not accurately understand the true meaning of the customer. For example, if the customer says “My credit card is gone”, the robot can't recognize its meaning, and the technician puts “my”, “credit card”, and “disappeared” as new keywords into the database's grammar table; The customer said: “The sly brush is lost”, the robot can not recognize its meaning, the technician will use “ ⁇ ", “brush card” (meaning “credit card”), "lost” as the new keyword. Put it in the syntax table of the database. In this way, the meaning or needs of the customer are understood through manual assistance and summarized into the database.
  • Keyword Pile-up This kind of artificial auxiliary identification is called Keyword Pile-up, which is simply referred to as "heap word”, which is the combination of accumulation of "words” and is included in the database according to its meaning.
  • Heap word This kind of artificial auxiliary identification is called Keyword Pile-up, which is simply referred to as "heap word”, which is the combination of accumulation of "words” and is included in the database according to its meaning.
  • the workload of this work is also enormous, and the professional knowledge of the trainers is also needed to aid understanding.
  • the natural expression of the client is automatically converted to obtain the X language information, or the C language information is directly obtained without conversion (when the A language information is text) When the information is); then convert the X language information or C language information into Y language information.
  • the random natural expression may be X language One of message information, B language information, C language information, and D language information. That is to say, the process of natural expression processing may be one of: A ⁇ X ⁇ Y, A ⁇ B ⁇ Y, A ⁇ C ⁇ Y, A ⁇ D ⁇ Y.
  • the non-regular natural expression information such as text, voice, graphics, and video is first converted into X language information by using a modeling tool; then, the X language is used as the left language, and the Y language is used as the right language.
  • the conversion of X language information to Y language information is realized by using machine translation (MT) technology.
  • the A language is automatically converted/translated into X language (based on the current "speech signal processing” by using “Speech Signal Processing” technology. "Technology, AX conversion accuracy is generally as high as 95% or more, and the improved “voice signal processing” technology is better in noise reduction, which can increase the conversion accuracy of A ⁇ X to over 99%);
  • the machine translation technology is then used to implement automatic machine translation of XY without the need for multi-layer conversion by XBCDY.
  • a machine translation algorithm similar to statistical analysis based on an instance sample can be utilized to convert the transformed random natural expression (X language information) into a regularized standard expression (Y language information).
  • This machine translation algorithm requires that the amount of data between the X and Y languages is large enough and accurate enough.
  • the solution of the present invention provides a new artificial agent working mode of MAU (Mortal Aided Understanding), and realizes the corresponding data accumulation between the A language and the Y language through manual understanding and code input.
  • MAU Total Aided Understanding
  • the credit card is missing the "natural message" of "or” lost the card.
  • This simple code input method turns the traditional "speaking agent” into a “non-speaking agent”, which makes the work of the agent more comfortable, greatly improves the work efficiency, and makes full use of the understanding of the highest value of human beings.
  • the ability to accurately and quickly collect the corresponding data of A/X language and Y language provide the MT engine with loop iteration, self-learning A/XY conversion/translation rules, and form A/XY translation model.
  • Machine translation is an artificial intelligence technology used to automatically translate two languages.
  • language as used herein is not a narrow national language (for example: Chinese, English 7), but a generalized representation of information. As mentioned earlier, languages can be divided into four categories: text, voice, image, animation (or "video").
  • a language is information formed by a combination of various elements in an element set.
  • English text is a language formed by a combination of various one-dimensional (serial) arrangements of 128 ASCII characters (elements) in the ASCII character set (element set);
  • the Chinese language is the national standard code. Thousands of Chinese characters in the field are combined with punctuation marks (the basic elements constituting Chinese information).
  • RGB plane images are composed of three sub-pixels of red, green and blue, through various two-dimensional (long Wide) another language formed by arranging combinations.
  • the data structure of the two tables is similar: the stored data is a pair of pairs, the left value is “left” “” (or “source language”), the right value is “right language” (or “target language”).
  • training data table is a textbook that humans teach themselves to MT robots.
  • test data table is a question that humans give to the MT robot to evaluate the robot's self-learning effect.
  • the MT robot is an iterative loop that is arranged and combined in units of elements constituting the language.
  • the 15 ASCII character elements of English “ May I have your” are found by training the two pairs of data in #3 and #4 in the data table (3 English letters "May” + 1 space + 1 English)
  • the arrangement of the Chinese national "I ask you” is the arrangement of the three Chinese characters.
  • the English "age” arrangement of the three ASCII character elements corresponds to the arrangement of the Chinese characters "age” in the two national standard codes.
  • the robot can accurately translate the English "May I have your age?” in the test data sheet into Chinese "Is your age?”, then the robot has learned the Chinese-English translation of this sentence. If not, then prove that the robot has not learned. Then the robot needs to correct its own learning. Learning methods (for example, looking for another path to try to learn again), re-digesting the training data table once, this is another iteration; ... so repeating this "iteration correction", which makes the robot Translation accuracy continues to climb. When climbing to a certain level (for example, the translation accuracy rate is 70%), the translation accuracy of the robot may remain at this level, and it is difficult to go up again, that is, it encounters the bottleneck of "machine self-learning". Then you need to add MT training data table data to the robot.
  • the data of the MT training data table can be imported from an external database or generated and added by "human assisted understanding".
  • a new natural expression instance such as the above-mentioned natural expression "My credit card can be overdrawn too much", and its corresponding standard expression “271 "Add to the existing MT training data table to increase and update the MT training data table data.
  • the MT training data table data can be efficiently added and updated, so that the data in the system MT training data table is richer and more accurate, and the translation (conversion) accuracy of the robot can be efficiently obtained. Upgrade.
  • the MT robot needs to exhaustively list all the permutations and combinations of the #3 ASCII character elements of #3's lvalue "May I have your time”, and also need the right value for #3. "What time is it now?" All the permutations and combinations of the 10 national standard codes are exhausted. That is, the MT robot needs to exhaustively list all the permutations and combinations of the left and right sets of elements of each pair of data in the training data table. Through this exhaustion of elemental level, MT robots will find many repetitive permutations (such as "your", “May I have your” . “age” . "time” .
  • the machine translation between the X language languages in the present invention is the same as the machine translation principle in Chinese and English, except that we changed the English to the X language, the Chinese language to the Y language, and the elements of the two languages.
  • the set is different.
  • machine translation techniques can be used to automatically translate one language into another.
  • the technical principle is to perform basic element level analysis on the paired information (left language and right language) of the two languages collected, and iteratively compares various arrangement and combination of basic elements of a large number of language information pairs to find The translation/translation rules between the two languages form a translation model for the two languages.
  • the technology of the present invention automatically converts the application of machine translation technology from the translation of languages between different countries to the automatic conversion of all non-regular multimedia natural expression information (text, voice, image, video, ie A language information) into
  • the regularization standard information (Y language information) is described so that the business systems of various industries can process them, thereby realizing a practical and practical NLP (Natural Language Processing).
  • the natural expression processing according to the embodiment of the present invention can be restricted to specific services of a specific industry organization.
  • the size of the training data table required by the processing system can be greatly reduced, thereby improving While the robot understands the mature threshold, it reduces the cost of building and maintaining the training data table, and it can also effectively shorten the maturity cycle of the ⁇ / ⁇ ⁇ translation model.
  • the natural expression processing system according to the embodiment of the present invention realizes the conversion from the natural expression to the standard expression of the encoding.
  • the basis of the conversion is an MT training data table storing A/X language information and Y language information paired data, and a translation model of A/X ⁇ Y obtained based on the MT training data table.
  • Fig. 1 schematically shows the flow of a natural expression processing method in accordance with one embodiment of the present invention.
  • step S11 the system receives natural expression information (A language information) which, as previously described, may be text information, voice information, image information, video information, or the like.
  • a language information which, as previously described, may be text information, voice information, image information, video information, or the like.
  • step S21 it is judged whether the understanding ability of the robot is mature.
  • the judgment of whether the robot understands maturity is based on the result that the robot converts the A language information into the X language information and then converts the X language information into the Y language information in a certain time interval (set according to specific application requirements).
  • the same number of times Y1 and Y2 are divided by the total number of comparisons, and the percentage obtained is the robot understanding accuracy.
  • the robot understands the accuracy according to the application needs, which we call "the robot understands the mature threshold".
  • the system thinks that the robot is not mature enough to use the robot conversion result Yl, and continues to use the manual conversion result ⁇ 2 to ensure the system understands the linguistic information accurately. And stable.
  • the system adds the A language information through the machine's automatically converted X language information (left language), and the manual conversion result Y2 (right language) to the MT training data table for the MT robot to self-train.
  • the robot automatically converts the natural expression A directly into the standard expression Y in step S22; if the robot understands that it is not yet mature, the robot attempts to convert the natural expression A into the standard expression Y1 in step S23. At the same time, the natural expression ⁇ is converted to the standard expression Y2 by the MAU agent at step S24.
  • step S32 if it is judged in step S21 that the understanding ability of the robot is mature, the result Y automatically converted by the robot is output; otherwise, the result Y2 of the manual conversion of the MAU agent is output.
  • step S31 the following process is performed on the natural expression A, the result of the robot attempting to convert Y1, and the result Y2 of the MAU agent manual conversion: automatically converting A into X language information (Left language) Together with Y2 (right language), it is placed in the training data table as a pair of new pairing data; Y1 and ⁇ 2 are compared and used as statistics for "judge whether the robot understands maturity".
  • the original data is retained, and when the future AX conversion technology is further developed (the conversion accuracy is higher), the left language data of the MT training data table is updated.
  • Fig. 2 schematically shows the flow of a natural expression processing and response method in accordance with one embodiment of the present invention.
  • step S31 the natural expression A is received at step S12. It is then judged at step S31 whether or not the natural expression A can be converted into the standard expression Y by machine conversion. This step is equivalent to step S21 in Fig. 1. Similar to the processing of Fig. 1, when it is judged at step S31 that the desired standard expression cannot be obtained by machine conversion, the manual conversion processing is performed at step S32.
  • step S33 a response prompting the customer to re-enter is made in step S33, and then the process returns to step S12 to receive the client.
  • the natural expression information A is input again.
  • "Respond to the customer to re-enter the response” can be, for example, the voice prompt "Sorry, please tell us about your needs again", "Please speak slowly”; text prompt "Sorry, please write specific”; Or image prompts, etc.
  • a standard expression of machine conversion or manual conversion is output at step S34.
  • a standard response matching the standard expression is queried in step S35.
  • the standard response can be fixed data pre-stored in the database, or the basic data of the standard response stored in the database in advance, and then run through the system to synthesize the basic data and the case variable parameters to generate a standard response.
  • a standard response ID is set as the primary key of the response data
  • a correspondence table of the standard expression (Y language information) requirement code and the standard response ID is set in the database, thereby expressing the standard (Y language information).
  • the demand code is associated with the response data. Tables 1 to 3 below schematically show examples of the expression data table, the expression response relationship table, and the response data table, respectively.
  • the standard expression and the standard response ID may be in a many-to-one relationship, as shown in Table 4.
  • the demand code of the standard expression (Y language information) is itself encoded
  • the requirement code of the standard expression (Y language information) can also be directly used as the primary key of the response data.
  • standard expressions can include information related to natural forms, such as expression type, language type, dialect type, and so on.
  • the natural expression from the customer is the voice "received”, and the standard response to the query is converted to the voice "good, know, thank you!; also for example, the natural expression from the customer is the image "transfer failure page” Screen capture", through the converted standard expression query, the standard response is the video "Transfer Error Correction tutorial”.
  • step S36 If there is no standard response in the database that matches the standard expression, then the corresponding response can be manually matched in step S36.
  • Manual matching can associate a standard expression with the standard response ID by entering or selecting a standard response ID, or directly associate the standard expression with the response data, and can also create new response data. The reason for not finding a standard response may be that the standard expression was newly added by hand, or it may be because there is no standard response matching the same type. Then, a machine matching or a manually matched response is output in step S37. The content of the response can be called or generated according to different types of information.
  • the text message "Transfer 5000 to my mom” needs to be operated by the program to "transfer 5000 yuan to Ms. X", but the system may not pre-master the account information of "Ms. X".
  • the account information needs to be manually added to achieve the conversion of the standard expression.
  • the corresponding standard response may not be queried, and the response process needs to be manually performed.
  • new response data (such as an operating program) is generated, and a new standard response ID is manually or automatically assigned to the response data, and the standard response ID is associated with the standard table of the above conversion.
  • the natural expression processing and response method according to an embodiment of the present invention can be quickly expressed by using standard expression Pointing to the response, so customers don't have to spend a lot of time traversing the complex regular menus to find the self-service they need.
  • manual operations are mainly limited to "decision" work in the background, including determining standard expression (Y language information) requirement code, selecting response (or response ID), or generating response operations, etc., but not required Communicate directly with the customer at the front desk by means of a call or text input (except for the input standard expression (Y language information) requirement parameter).
  • This can save a lot of human resources and greatly improve work efficiency.
  • the standardized response provided by the system to the customer is not affected by many factors such as emotion, voice, accent, business proficiency and other factors of the agent, as compared with the traditional free-form response provided by the agent directly to the client. Stability.
  • the natural expression data in the database can also have the advantages of small granularity, narrow business scope, high data fidelity, etc., thereby reducing the difficulty of robot training and shortening the mature period of robot intelligence.
  • Fig. 3 schematically shows an intelligent response system in accordance with an embodiment of the present invention.
  • the intelligent response system includes an intelligent answering device 1 (equivalent to a server end), and a calling device 2 (equivalent to a client).
  • the client 8 communicates with the smart answering device 1 through the calling device 2, and the MAU artificial seat 9 (System service personnel) Manually operate the smart answering device 1.
  • the intelligent answering device 1 includes a conversation gateway 11, a central controller 12, a MAU workstation 13, and a robot 14.
  • the smart answering device 1 further includes a trainer 15.
  • Customer 8 refers to the object of the organization's remote sales and remote services.
  • Remote sales usually refer to the initiative to contact customers in the form of "outgoing” through their own proprietary telephone or Internet channels, trying to sell their products and services.
  • Remote service usually means that the organization's customers actively contact the organization in the form of "incoming call” through the organization's exclusive telephone or Internet channel, asking or using the organization's products and services.
  • the calling device 2 may be a dedicated telephone channel or Internet channel established by the organization for remote sales (outbound service) to the customer 8 and remote service (incoming service) to the customer.
  • Telephone channel call systems such as Automatic Call Distribution (ACD) (eg, Avaya's ACD), are automated business systems that are passed through the back office (eg, traditional IVR systems based on telephone button technology, or based on intelligent voice technology).
  • ACD Automatic Call Distribution
  • New VP Voice Portal
  • a portal system and a human agent a dialogue channel that interacts with the client 8 in a voice form.
  • Internet channel calling systems such as the Internet Call Center (ICC) based on Instant Messaging (IM) technology
  • ICC Internet Call Center
  • IM Instant Messaging
  • customer self-service systems eg, Natural Language Processing (NLP)
  • NLP Natural Language Processing
  • the intelligent answering device 1 enables the organization to control the automatic business system and the artificial agent in the background, and the dialogue with the client 8 in the form of multimedia such as text, voice, image, video, etc., thereby realizing standardization and automatic interaction between the organization and the client. dialogue.
  • the conversation gateway 11 plays the role of "pre-portal" in the intelligent answering device 1, and the main functions include: receiving the irregular natural expression (by text, voice, image, video) and regularization from the client 8 via the calling device 2
  • the expression (such as in the form of a telephone keyboard button) is sent to the central controller 12 for subsequent processing; receiving instructions from the central controller 12 to respond to the expression of the client 8 (in the form of text, voice, images, video, programs, etc.) ).
  • the conversation gateway 11 includes an expression receiver 111, a body ID 112, a response database 113, and a response generator 114.
  • the expression receiver 111 receives the expression from the client 8 through the calling device 2.
  • the expression may be the various irregular natural expressions and regularized unnatural expressions described above.
  • an identity authenticator 112 is provided prior to expressing the receiver 111.
  • the identity authenticator 112 can identify and verify the identity of the client 8 during the initial phase of the conversation.
  • You can use the traditional "password input” technology such as: phone key to enter password, keyboard input website login password, etc.); also use the new "pass-phrase” + voice-print (Voice-print) identification "Technology; you can also mix and match the above two technologies.
  • password authentication technology is inconvenient, it has been widely accepted and used by the market.
  • the response database 113 stores response data for responding to the customer. Similar to the examples in the above table, the data can include the following types:
  • Text Pre-written text, for example, the text answer in the online banking FAQ (Frequently Asked Questions).
  • Image Prefabricated image, for example, Beijing subway network map. Also included are non-video animations, such as: Banks introduce customers to GIF files, FLASH files, etc. for international money transfer operations in online banking systems.
  • Video Prefabricated videos, for example, electric iron suppliers show customers how to use their new products.
  • Template Text, voice, image, program template that can be filled with variables.
  • the response generator 114 receives the central controller 12 command to generate a response to the client 8 expression by invoking and/or running the data in the response database 113.
  • the response ID may be queried according to the standard in the instruction
  • the response data may be queried from the response database 113, or the text, image, or voice, video, or program may be played; or the template may be invoked in the database 113 according to the instruction.
  • fill in the variable parameters transmitted in the instruction, or play the TTS speech synthesis generated in real time for example, "You have successfully repaid the credit card 5000 yuan.”", "5000 yuan" is the variable in the instruction or displays a paragraph of text, or Display a real-time generated picture or animation, or execute a program.
  • central controller 12 may maintain and update data in response database 113, including response data, standard response IDs, and the like.
  • the central controller 12 receives customer demand expression information from the expression receiver 111 (including: irregular natural expression and regularized unnatural expression), and cooperates with the robot 14 and the MAU workstation 13 via the MAU workstation 13 to thereby
  • the irregular natural expression information is converted into a standard expression according to the foregoing method, and the standard response ID corresponding thereto is determined according to the standard expression,
  • the standard response ID is then sent to the response generator 114.
  • central controller 12 may update the data in the MT training data table.
  • the robot 14 is an application robot that implements the above-described artificial intelligence technology.
  • the robot 14 can perform conversion of natural expression (A-language information) such as text information, voice information, image information, and video information to obtain a standard expression (Y language information).
  • A-language information such as text information, voice information, image information, and video information
  • Y language information a standard expression
  • the MT training data table can be set in the robot 14 or an external database, and the demand code of the standard expression data (right language) stored therein can be associated with the standard response ID.
  • This database can be updated by the central controller 12.
  • the database for text translation, speech recognition, image recognition, video processing, and the like may be an external database or may be provided in the robot 14.
  • the MAU workstation 13 is an interface between the smart answering device 1 and the MAU human agent 9.
  • the MAU workstation 13 presents the identified natural representation or customer original expression to the MAU artificial agent 9.
  • the MAU artificial seat 9 inputs or selects a standard expression through the MAU workstation 13, and then the MAU workstation 13 sends the standard expression to the central controller 12.
  • the MAU artificial agent 9 inputs or selects a response (or standard response ID) through the MAU workstation 13.
  • a trainer 15 may also be included in the smart answering device 1.
  • the trainer 15 is used to train the robot 14 to convert natural expressions into standard expressions.
  • the trainer 15 uses the judgment result of the MAU artificial seat 9 to train the robot 11, and continuously improves the robot comprehension correctness rate of the robot 11 in various domains (for example, the aforementioned business scope and sub-service category, etc.).
  • the trainer 15 compares the standard expression conversion result of the MAU artificial seat 9 with the standard expression conversion result of the robot 11, If the results are the same, the category "the number of robot judgments” and the “number of robot judgments” are increased accordingly; otherwise, the manual conversion result is added to the MT training data table as new robot training data.
  • the trainer 15 can also indicate the robot. 14 Perform the aforementioned "self-learning”.
  • the trainer 15 can also be used to train the robot 14 with artificial intelligence techniques such as text translation, speech recognition, image recognition, video processing, and the like.
  • the trainer 15 can also perform dimensions on the MT training data table, the database for text translation, speech recognition, image recognition, and video processing. Protection and renewal.
  • the trainer 15 can also be integrated with the central controller 12.
  • the response generator 114 and the response database 113 may be independent of the conversation gateway 11, or may be integrated in the central controller 12.
  • the intelligent response device 1 can implement the aforementioned natural expression processing and response method.
  • the conversation gateway 11 receives the irregular natural expression information from the client 8 from the calling device 2 through the expression receiver 111 and transmits it to the central controller 12; the central controller 12 instructs the robot 11 to recognize the irregular natural expression information.
  • Some form of language information and related expression information that can be processed by the computer, and then instructing the robot 11 to convert the language information and related expression information into a standard expression; if the understanding of the robot 11 is not mature enough or the corpus is not matched, If the conversion of the standard expression cannot be completed, the central controller 12 instructs the MAU workstation 13 to prompt the MAU artificial agent 9 to perform manual conversion of the standard expression; the MAU artificial agent 9 converts the language information and related expression information recognized by the robot 11 into a standard expression, and passes The MAU workstation 13 inputs and sends to the central controller 12.
  • the MAU artificial agent 9 can directly convert the unrecognized irregular natural expression information into a standard expression; the central controller 12 queries the expression-response database, and retrieves the Standard expression matching standard response ID, if there is no matching result, then the MAU workstation 13 prompts the MAU artificial agent 9 to select the standard response and input the corresponding standard response ID. Alternatively, the MAU artificial agent 9 can directly associate the standard expression with the response data.
  • the central controller 12 instructs the response generator 114 to invoke and/or run the data in the response database 113 to generate a response to the representation of the client 8; then, the conversation gateway 11 feeds the response back to the calling device 2 Client 8;
  • the central controller 12 maintains and updates the MT training data table or response database, respectively, based on standard expressions or standard responses determined or added by the MAU human agent 9, and maintains and updates a response database accordingly.
  • Fig. 5 schematically shows an example of an operation interface presented by the MAU workstation to the MAU human agent 9.
  • the operation interface of the MAU workstation 13 includes: a customer expression display area 131, a conversation status display area 132, a navigation area 133, a category selection area 134, and a shortcut area 135.
  • the customer expression display area 131 displays the natural expression of the customer, for example, in the form of text converted from text, images, and voice.
  • the conversation status display area 132 displays the real-time status information of the conversation between the client 8 and the MAU artificial agent 9 or the robot 14, such as: the number of conversations, the total duration of the conversation, the customer information, and the like. This display area may not be set.
  • the navigation area 133 shows the category of the MAU artificial seat 9 that has been selected so far.
  • the left end of the area shows the text version of the current category path (as shown in the figure: bank credit card), and the right side displays the category pair code (as shown in the figure: "12", "represents the bank” category, "2" stands for The next level of the "bank” category “credit card”.
  • "1" stands for "bank” category, and without “BNK", the two logos are the same) .
  • Category selection area 134 for MAU artificial seats 9 select the next level category.
  • MAU artificial agent 9 has entered the next level of "banking" category "credit card,,, and the "credit card” category has 7 sub-categories: “Activate new card”, “Apply new Card and application progress inquiry ", "payment” ....
  • customer 8 is "My credit card can be overdrawn.”
  • MAU artificial seat 9 Select “7” in the current category “Bank Credit Card”
  • the navigation area will update and display "Bank Credit Card Adjustment Credit Limit 127” to enter the next level.
  • MAU artificial agent 9 can also directly enter "127" on the keyboard after seeing the expression of customer 8, and reach the target category "bank credit card adjustment credit limit”.
  • MAU artificial agent 9 can quickly help the customer directly start the "adjust credit card quota" processing As a result, the user experience becomes easy and convenient, and the self-service process utilization rate of the traditional IVR system will be greatly improved.
  • the shortcut area 135 provides common shortcut keys for the MAU artificial seat 9, for example, "-" returns to the upper category, "0" transfers the artificial seat, "+, returns to the top level category (in this example, the root category "bank””
  • the shortcut area 135 can also provide other shortcut keys for the MAU artificial seat 9.
  • the shortcut area 135 can improve the processing speed of the MAU artificial seat 9.
  • the shortcut area 135 is also an optional setting area.
  • An intelligent answering device in accordance with an embodiment of the present invention can be implemented by one or more computers, mobile terminals or other data processing devices.
  • the natural expression processing and response method, device and system according to an embodiment of the present invention can utilize the standard expression to quickly point to the response, so that the customer does not have to spend a long time traversing the complex conventional function menu to find the self-service required by himself.
  • Standardized nature can be established through robotic learning, training and manual assisted understanding
  • the expression of a standard expresses a standard response database, gradually realizing the system's automatic understanding and response.
  • the natural expression information data in the database can also have the advantages of small granularity, narrow business scope, high fidelity, etc., thereby reducing the difficulty of robot training and shortening the maturity cycle of robot intelligence.
  • manual operation is mainly limited to the "decision" work in the background, including determining the requirement code of the standard expression (Y language information), selecting the response (or response ID), or generating the response operation, etc., but does not need to pass in the foreground.
  • Calls or text input except for the input parameters of the standard expression (Y language information)) to communicate directly with the customer. This can save a lot of human resources and improve work efficiency.
  • the system's standardized response to customers is more than the traditional free agent's traditional free-form response to the customer, not affected by many factors such as mood, voice, accent, business proficiency, etc. The stability of the experience.
  • the automatic learning, training and maturity evaluation of the robot can be realized in units of specific business categories (nodes), thereby realizing the intelligence of the overall system point by point.
  • nodes business categories
  • the "machine understanding of point-by-point maturity" mechanism is more easily recognized and accepted by the organization, because the risk is relatively low, the cost of the old system transformation is not high, and it will not have a negative impact on daily operations.

Abstract

本发明公开了一种自然表达处理方法,包括:对于来自用户的自然表达进行识别,得到计算机可处理的某种形式的语言信息;以及将识别得到的语言信息转换为编码形式的标准表达。根据本发明实施例的自然表达处理方法,可以将自然表达转换为编码化的标准表达,由于该标准表达的转换是将自然表达的语义转换为编码和参数,而无需精确的逐字翻译,因此可以降低机器翻译的精准度要求,同时降低用于实现表达转换(机器翻译)的数据库的复杂度,提高数据查询和更新速度,从而提高智能处理的性能。另一方面,相对简单的编码化表达,也可以减少人工辅助干预的工作量,提高人工辅助干预的工作效率。

Description

自然表达处理方法、 处理及回应方法、 设备及系统 技术领域
本发明涉及一种信息处理方法, 具体而言, 涉及一种对于人类自然表达 的处理方法, 对于该自然表达的处理及回应方法以及应用该处理及回应方法 的信息处理设备和信息处理系统。 背景技术
机器翻译(MT, Machine Translation, 俗称"机翻")属于计算语言学
( Computational Linguistics )的范畴, 其利用计算机程序将文字或语音表达从 一种自然语言翻译成另一种自然语言。 从某种意义上, 实现了不同自然语言 间的词汇替换。 进一步, 通过使用语料库技术, 可实现更加复杂的自动翻译, 更好地处理不同的文法结构、 词汇辨识、 惯用语的对应等。
目前的机器翻译工具通常可允许针对特定领域或是专业(例如天气预报) 来加以定制化, 目的在于将词汇的翻译缩小于该特定领域的专有名词上, 以 改进翻译的结果。 这种技术针对一些使用较正规或是较制式化陈述方式的领 域来说特别有效。 例如, 政府机关或法律相关文件, 通常比一般的文字表达 更加正式与制式化, 其机器翻译的结果往往比日常生活对话这种非正式文件 要好。
但是, 机器翻译的结果好坏, 往往取决于译入跟译出语之间, 在词汇、 文法结构、 语系甚至文化上的差异, 例如英文与荷兰文同为印欧语系日耳曼 语族, 这两种语言间的机器翻译结果, 通常便会比中文与英文间机器对译的 结果要好很多。
因此, 要改善机器翻译的结果, 人为的介入仍显相当重要, 例如, 某些 机器翻译的系统若能够由人为的界定或选择哪个词语比较适合, 则可大幅改 进机器翻译的正确度与品质。
目前的一些翻译工具,例如 Alta Vista Babelfish,有时可以得到可以理解 的翻译结果, 但是想要得到较有意义的翻译结果, 往往需要在输入语句时进 行适当地编辑, 以利于计算机程序分析。 一般而言, 大众使用机器翻译的目的, 可能只是为了要得知原文句子或 段落的要旨, 而不是精确的翻译。 总的说来, 机器翻译还没有达到可以取代 专业(人工)翻译的程度, 并且也尚不能成为正式的翻译。
自然语言处理 ( NLP, Natural Language Processing )是人工智能和语言 学领域的分支学科。 在此领域中探讨如何处理及运用自然语言; 自然语言认 知则是指让计算机"懂"人类语言背后的实质涵义。
自然语言生成系统把计算机数据转化为自然语言。 自然语言理解系统把 自然语言转化为计算机程序更易于处理的形式。
理论上, NLP是一种很吸引人的人机交互方式。 早期的语言处理系统, 如 SHRDLU,当它们处于一个有限的 "积木世界",运用有限的词汇表会话时, 工作得相当好。 这使得研究员们对此系统相当乐观。 然而, 当这个系统拓展 到充满了现实世界的含糊与不确定性的环境中时, 他们很快就丧失了信心。 由于理解( Understanding ) 自然语言, 需要关于外在世界的广泛知识以及运 用操作这些知识的能力, 自然语言认知, 同时也被视为一个人工智能完备 ( AI-Complete ) 的问题。
基于统计的自然语言处理运用了概率和统计的方法来解决基于文法规则 的自然语言处理存在的问题。 尤其是针对容易高度模糊的长串句子, 当套用 实际文法进行分析时可能会产生出成千上万种可能性。 处理这些高度模糊句 子所釆用消歧的方法通常运用到语料库以及马可夫模型 (Markov models ) 。 统计自然语言处理的技术主要由人工智能技术中与学习行为相关的子领域 ——机器学习 ( Machine Learning )及数据挖据( Data Mining )所演进而成。
但是, 这种基于统计的自然语言处理方法, 需要建立含有庞大数据量的 配对语料的语料库供计算机学习和使用, 而对于数据量巨大的语料库而言, 从中检索出对应的机器翻译(理解)结果并进行反馈, 也需要很大的计算资 源支持。 此外, 即使釆用这种方法, 应对实际自然语言的多样性及不确定性 也有 4艮大的困难。
自然语言处理技术在实践中有着广泛的应用。 例如, 交互式语音应答和 互联网呼叫中心系统等。
交互式语音应答 ( IVR, Interactive Voice Response )是一种基于电话的 语音增值业务的统称。 很多机构 (如银行, 信用卡中心, 电信运营商等)都 通过交互式语音应答系统( IVRS, Interactive Voice Response System )向客户 提供各式各样的自助服务, 客户可拨打指定的电话号码, 进入系统, 根据系 统之指示, 键入适当的选项或个人资料, 以听取预录之信息, 或经计算机系 统根据预设的程序 (Call Flow )组合数据, 以语音方式读出特定的资料(如 户口结余、 应付金额等) , 还可通过系统输入交易指示, 以进行预设的交易 (如转账、 更改密码、 更改联系电话号码等) 。
尽管 IVR系统在过去十数年得到了广泛的应用, 但在技术上, IVR系统 天生就有一个至今仍困扰着所有机构的硬伤: 无法简化的多层选项菜单树。 用户在使用 IVR系统选择自助服务的时候,绝大多数都没耐心去花时间游历 一棵多层选项的菜单树, 而是直接按 "0,,转人工客服座席, 导致机构对 IVR 系统能 "有效提升客户使用自助服务比率和大幅替代人工作业量 "的期望与现 实存在着一个不可逾越的鸿沟。
互联网呼叫中心系统( ICCS, Internet Call Center System )是近年兴起的 一种新型呼叫中心系统, 釆用流行的即时通讯 ( IM, Instant Messaging ) 互 联网技术, 让机构与自己的客户可以在互联网上进行主要基于文本的实时沟 通, 被应用于机构的客户服务和远程销售。 使用 ICCS的人工座席可以同时 与两个以上的客户进行交流。
可以说,基于文本的 ICC系统是基于语音的 IVR系统的一个变种,都是 机构与其客户之间进行沟通(不管是客户服务,还是远程销售)的必要工具, 两者背后都需要人工座席的高度参与。 因此, 与 IVR系统一样, ICC系统同 样难以满足机构的"有效提升客户使用自助服务比率和大幅替代人工作业量" 需求。
另一方面, 传统的语音识别技术基于缺乏准确度和稳定度的语音识别结 果, 利用关键字搜索技术, 釆用 "穷举法" 去做语音的语义分析。 虽然很多 语音识别技术公司在 "转写 (Transcription ) " 和 "关键字切割 (Keyword Spotting ) "这两项工作上耗费了巨大的人力与金钱, 并且长期坚持不懈地去 训练语音机器人, 但实际效果往往与理想中的效果相差甚远。
发明内容
根据本发明的一个方面, 提供了一种自然表达处理方法, 其包括: 对于 来自用户的自然表达进行识别, 得到计算机可处理的某种形式的语言信息; 以及将识别得到的语言信息转换为编码形式的标准表达。
根据本发明实施例的自然表达处理方法, 可选地, 标准表达包括体现用 户需求的需求代码。
根据本发明实施例的自然表达处理方法, 可选地, 需求代码用数字编码 表示。
根据本发明实施例的自然表达处理方法, 可选地, 标准表达还包括进一 步体现用户具体需求的需求参数。
根据本发明实施例的自然表达处理方法, 可选地, 所述语言信息是由利 用建模工具对语音形式的自然表达进行切割和转换得到的语言信息单元构成 的。
根据本发明实施例的自然表达处理方法, 可选地, 所述语言信息是由音 素、 字和短语中的一种构成的。
根据本发明实施例的自然表达处理方法, 可选地, 基于语言信息与标准 表达的 MT ( Machine Translation机器翻译 )训练数据表来实现从语言信息到 标准表达的转换。
根据本发明实施例的自然表达处理方法, 可选地, 在识别自然表达的同 时得到与该自然表 目关的信息, 并将此信息转换为标准表达的一部分。
根据本发明的另一个方面, 提供了一种人工智能机器人的训练方法, 其 包括: 建立 MT训练数据表, 该 MT训练数据表包括有: 通过转换自然表达 所得到的计算机可处理的语言信息, 编码化的标准表达以及所述语言信息和 所述标准表达的对应关系; 使得人工智能机器人对于所述 MT训练数据表中 已有的所述语言信息的元素的各种排列组合和所述标准表达的元素的各种排 列组合进行循环迭代比较, 找出所述语言信息元素的排列组合与所述标准表 达元素的排列组合之间的对应关系。
根据本发明实施例的人工智能机器人的训练方法, 可选地, MT训练数 据表的数据可以从外部数据库导入, 也可以通过人工辅助理解来进行生成和 添力口。
根据本发明的另一个方面, 提供了一种自然表达处理方法, 其包括: 输 入自然表达;识别所述自然表达,得到计算机可处理的某种形式的语言信息; 判断是否能够通过机器转换将所述语言信息转换为编码化的标准表达; 如果 判断不能通过机器转换得到所需的标准表达, 进行人工转换处理; 以及输出 机器转换或人工转换的标准表达。
根据本发明实施例的自然表达处理方法, 可选地, 判断是对于机器人理 解是否成熟的判断, 其中, 对于机器人理解是否成熟的判断, 是基于对一定 时间区间内的机器人理解准确率的评估来进行的。
根据本发明的又一个方面,提供了一种自然表达处理及回应方法, 包括: 输入自然表达; 识别所述自然表达, 得到计算机可处理的某种形式的语言信 息及相关的表达类型信息; 判断是否能够通过机器转换将所识别的自然表达 和表达类型信息转换为编码化的标准表达; 如果判断不能通过机器转换得到 所需的标准表达, 进行人工转换处理; 调用或生成与所述机器转换或者人工 转换的标准表 目匹配的标准回应; 以与所述表达类型信息对应的方式输出 所述生成的标准回应。
根据本发明实施例的自然表达处理及回应方法, 可选地, 标准回应是预 先存储在数据库中的固定数据, 或者基于预先在数据库中存储的标准回应的 基础数据和变量参数来生成所述标准回应。
根据本发明的再一个方面, 提供了一种自然表达处理及回应设备, 其包 括: 对话网关, 中央控制器, MAU 工作站, 机器人, 表达数据库, 回应数 据库和回应生成器, 其中, 对话网关接收来自用户的自然表达, 发送给中央 控制器进行后续处理, 并且将对自然表达的回应发送给用户; 中央控制器接 收来自对话网关的自然表达, 并与机器人以及 MAU工作站协同工作, 将该 自然表达转换为编码化的标准表达, 并根据标准表达指示回应生成器生成与 该标准表达对应的标准回应;机器人根据中央控制器的指示,识别自然表达, 得到计算机可处理的某种形式的语言信息, 并且利用表达数据库将该语言信 息转换为标准表达; MAU工作站将经识别的自然表达或者来自用户的自然 表达呈现给外部的 MAU人工座席, MAU人工座席通过 MAU工作站输入或 者选择标准表达, 然后 MAU工作站将该标准表达发送给中央控制器; 表达 数据库用于存储表 目关数据, 包括: 与所述自然表 目关的所述语言信息 数据, 与所述标准表 目关的标准表达数据, 以及与所述语言信息和所述标 准表达之间的关联相关的数据; 回应数据库存储回应相关数据, 包括供调用 的标准回应数据和 /或用于生成回应的数据; 回应生成器接收中央控制器的指 令, 通过调用和 /或运行回应数据库中的数据来生成对用户的自然表达的回 应。
根据本发明实施例的自然表达处理及回应设备, 可选地, 中央控制器更 新表达数据库和 /或回应数据库。
根据本发明实施例的自然表达处理及回应设备, 可选地, 所述设备进一 步包括训练器, 该训练器用于训练机器人将自然表达转换为标准表达。
根据本发明实施例的自然表达处理及回应设备, 可选地, 对话网关进一 步包括身份认证器, 用于在接收自然表达信息前识别和验证用户的身份, 其 中, 用户身份验证方法至少包括密语和声纹识别。
根据本发明的再一个方面,提供了一种自然表达处理及回应系统, 包括: 智能应答设备,以及呼叫设备,用户通过呼叫设备与智能应答设备通信, MAU 人工座席对智能应答设备进行操作, 其中, 智能应答设备包括: 对话网关, 中央控制器, MAU 工作站, 机器人, 表达数据库, 回应数据库和回应生成 器, 对话网关从呼叫设备接收来自用户的自然表达, 并将其发送到中央控制 器; 中央控制器指示机器人从自然表达识别出计算机可处理的某种形式的语 言信息及相关的表达信息, 然后指示机器人将该语言信息及相关的表达信息 转换为标准表达; 如果机器人的理解力不够成熟, 而不能完成标准表达的转 换, 则中央控制器指示 MAU工作站提示 MAU人工座席进行标准表达的人 工转换, MAU人工座席将机器人识别的语言信息及相关表达信息转换为标 准表达, 并通过 MAU工作站输入并发送到中央控制器; 中央控制器基于标 准表达指示回应生成器调用和 /或运行回应数据库中的数据来生成对用户的 自然表达的回应; 对话网关将回应通过呼叫设备反馈给用户。
根据本发明实施例的自然表达处理方法, 可以将自然表达转换为编码化 的标准表达,由于该标准表达的转换是将自然表达的语义转换为编码和参数, 而无需精确的逐字翻译, 因此可以降低机器翻译的精准度要求, 同时降低用 于实现表达转换(机器翻译)的数据库的复杂度,提高数据查询和更新速度, 从而提高智能处理的性能。 另一方面, 相对简单的编码化表达, 也可以减少 人工辅助干预的工作量, 提高人工辅助干预的工作效率。
根据本发明实施例的自然表达处理和应答方法、 设备及系统, 可以利用 标准表达快速指向回应, 从而使得客户无需再花长时间遍历复杂的常规功能 菜单来寻找自己所需的自助服务。 并且, 通过机器人的自动学习、 训练及人 工辅助理解, 可以建立标准化的自然表达一标准表达一标准回应数据库, 逐 渐实现系统自动理解和回应。 并且该数据库还可以具有颗粒度小、 知识范畴 、 数据保真度高等优点, 从而降低机器人训练难度, 缩短机器人智能的成
Figure imgf000009_0001
附图说明
为了更清楚地说明本发明实施例的技术方案, 下面将对实施例的附图作 简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例, 而非对本发明的限制。
图 1 示意性地示出了根据本发明一个实施例的自然表达处理方法的流 程;
图 2示意性地示出了根据本发明一个实施例的自然表达处理及回应方法 的流程;
图 3示意性示出了根据本发明实施例的智能应答系统;
图 4进一步示出了图 3系统中的智能应答设备的部分结构;
图 5示意性地示出了由 MAU工作站呈现给人工座席的操作界面的一个 例子;
图 6示出了对语音信息进行识别的一个例子;
图 7示出了一个利用高斯混合模型将釆集的声波转换为 X元素的例子; 图 8示出了从釆集的声波( A语言信息)到 Y语言信息的转换的一个例 子;
9概括示出了从釆集的声波( A语言信息)到 Y语言信息的逐层转换
Figure imgf000009_0002
具体实施方式
为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例的附图, 对本发明实施例的技术方案进行清楚、 完整地描述。显然, 所描述的实施例是本发明的一部分实施例, 而不是全部的实施例。 基于所描 述的本发明的实施例, 本领域普通技术人员在无需创造性劳动的前提下所获 得的所有其它实施例, 都属于本发明保护的范围。
除非另作定义, 此处使用的技术术语或者科学术语应当为本发明所属领 域内具有一般技能的人士所理解的通常意义。 本发明专利申请说明书以及权 利要求书中使用的"第一"、 "第二 "以及类似的词语并不表示任何顺序、 数量 或者重要性, 而只是用来区分不同的组成部分。 同样, "一个 "或者 "一"等类 似词语也不表示数量限制, 而是表示存在至少一个。 语音应答 IVR或互联网呼叫中心系统 ICCS的客户服务系统或其他远程客户 联络系统(如: 电话销售系统、 网络销售系统、 VTM智能远程终端机 ... ... )。 如前所述, 在这类应用中, 对机器翻译的要求并非逐字的确切含义, 而是需 要将客户的自然表达转换为系统能够理解的信息, 从而为客户提供与其表达 对应的应答。 也就是说, 这里的机器翻译侧重于对人类语言背后的实质涵义 的理解, 从而以计算机程序更易于处理的形式表示从自然表达中所"理解"到 的客户实际意图或需求。
根据本发明实施例的自然表达处理方法, 首先对于来自用户的自然表达 进行识别或者转换, 得到计算机可处理的某种形式的语言信息, 然后将该识 别得到的语言信息转换为某种形式的标准表达。 我们称之为 "物理层语言信息" , 以下也简称为 "A语言信息" 。 通过某种 建模工具, 进行基本的自动识别或转换,得到以若干基本元素(以下称为 "X 元素" )排列组合的形式表现的第一逻辑层语言 (以下称为 "X语言" )信 息。将 A语言信息识别或转换得到的 X语言信息再转换生成的某种形式的标 准表达, 以下称 "Y语言信息" 。
人类的自然表达方法是多种多样的, 例如, 可将来自客户的自然表达, 即 "A语言信息" 分为以下四大类: 文字信息、 语音信息、 图像信息、 动画 信息。
其中, 文字信息表达可以是: 客户通过键盘输入文字表达自己, 例如, 客户在一家银行的互联网通道呼叫中心用户界面上键入"我的储蓄账户里还 有多少钱? "; 图像信息表达可以是: 客户通过图像表达自己, 例如, 客户通 过电脑桌面截屏工具, 将使用某种软件的出错信息, 以图像的方式表达自己 所遇到的问题; 语音信息表达可以是: 客户通过说话表达自己, 例如, 客户 与一家银行的服务热线(电话通道呼叫中心)客服专员对话, 期间在电话上 说: "你说的到底是什么意思? 我不是太明白"; 动画(或称 "视频")信息表 达可以是: 客户通过在镜头前摇头以表达自己不同意。
如前所述, 将客户的自然表达( A语言信息)进行自动识别或转换, 得 到以某种语言形式表示的信息。 如果 A语言信息是语音信息, 那么例如可以 通过建模工具釆集声波波形信息并通过系统(智能机器人) 自动识别或转换 为某种(对应于语音信息)的 X语言; 如果 A语言信息是图形信息, 那么例 如可以通过建模工具釆集图形像素信息并通过系统(智能机器人) 自动识别 或转换为 (对应于图像信息的) X语言; 如果 A语言信息是动画信息, 那么 例如可以通过建模工具釆集图形像素信息和图像变化速度信息并通过系统 (智能机器人) 自动识别或转换为 (对应于动画信息信息的) X语言; 如果 A语言信息是文字信息, 则无需转换。
然后,将以上从 A语言信息自动转换得到的 X语言信息或无需转换的文 字信息 "翻译 "为计算机或其它处理设备能够"理解"的规则化标准表达(Y语 言信息)。 Y语言信息可被计算机业务系统进行自动处理。
根据本发明的实施例, 可以用规则化的编码来实现所述规则化标准表达
( Y语言信息)。 例如, 釆用如下的编码方式, 其包括行业代码, 行业业务代 码, 机构代码, 机构业务代码和表达信息代码。
( 1 )行业代码
主行业(2位英文字母, 最多 26x26=676个主行业)
子行业(3位英文字母, 每个主行业最多有 26x26x26=17,576个子行 业)
( 2 )行业业务代码
一级行业业务范畴( 1位数字 0-9 )
二级行业业务范畴( 1位数字 0-9 )
三级行业业务范畴( 1位数字 0-9 )
四级行业业务范畴( 1位数字 0-9 )
五级行业业务范畴( 1位数字 0-9 ) 六级行业业务范畴( 1位数字 0-9 )
七级行业业务范畴( 1位数字 0-9 )
八级行业业务范畴( 1位数字 0-9 )
九级行业业务范畴( 1位数字 0-9 )
十级行业业务范畴( 1位数字 0-9 )
( 3 ) 机构代码 ( UID ) ( 24位数字 =国家号 3位+城市号 3位 +机构号 18 位)
( 4 )机构业务代码
一级机构业务范畴(0-9 )
二级机构业务范畴(0-9 )
三级机构业务范畴(0-9 )
四级机构业务范畴(0-9 )
五级机构业务范畴(0-9 )
( 5 )表达信息代码
信息类型代码 ( 2位数字 1-99 )
语言代码(使用 RFC3066标准: http://tools.ietf.org/html/rfc3066, 如 zh-CN代表"简体中文")
方言代码( 3位数字 1-999 )
其中, 行业代码表示来自客户的无规则自然表达( A语言信息)所指向 的提供服务的主体所在的行业, 例如, 可以用 2位英文字母表示, 则可以涵 盖 676个行业, 可选地, 增加 3位英文字母的子行业代码, 可增加涵盖每个 行业的 17576个子行业。 这样, 该编码基本上可以涵盖所有常见的行业; 行 业业务代码表示来自客户的 A语言信息所指向的服务需求, 同样可以用多位 阿拉伯数字表示, 例如, 釆用 10位数字进行编码, 可以涵盖更多的行业业务 范畴;机构代码表示来自客户的 A语言信息所指向的提供服务的主体,例如, 可以标识该机构所在国家和城市; 机构业务代码表示提供服务的主体的内部 个性化业务划分, 便于机构进行个性化内部管理; 表达信息代码表示客户的 A语言信息本身的标识性信息, 可以包括信息的类型、 语言的类型等等, 用 数字和字母表示。
以下是根据以上编码方式的规则化标准表达(Y语言信息)的两个例子: 例一: FSBNK27100000000860109558800000000000000000002zh-CN003 其中,
行业代码为,
• FS = Financial Service金融服务 (主行业)
· BNK = Bank银行 (子行业)
行业业务代码为,
• 2710000000 =一级行业业务范畴一 2 (信用卡) 二级行业业务范畴一 7 (调整信用额度) 三级行业业务范畴一 1 (增加信用额度) 0000000 (再 无更细分范畴 )
机构代码为,
• 086010955880000000000000 = 国家号 086 ( 中国 ) 010 (北京) 955880000000000000 (中国工商银行总行)
机构业务代码为,
• 00000 =无机构业务范畴(在这个 Y语言信息中, 没有"中国工商银行总 行"这个机构自己定义的机构业务范畴, 即表示: 该 Y语言信息完全属于行 业业务范畴, 为银行业通用。)
表达信息代码为,
• 02 =语音(客户提供的 A语言信息类型为"语音" )
• zh-CN = 大陆中文
· 003 = 广东话方言
在此例子中, 该 Y语言信息所对应的 A语言信息可以是, 诸如, "我的 信用卡额度太少了", "我想增加我的信用卡额度", "我要减低我的信用卡额 度", "我需要调整信用卡额度"等等语音信息。
在一些特定的应用情形, 特别是提供服务的主体确定的情况, 上述的行 业代码、 机构代码和机构业务代码都可以作为系统缺省值预设。 也就是说, 仅从客户提供的 A语言信息中获得业务代码和表达信息代码即可,在这种情 况下, 可以将 Y语言信息表示为" 271000000002zh-CN003"; 或者, 如果针对 特定应用 3 位数字表示行业业务代码就够了, 则可以进一步表示为 "27102zh-CN003"; 再者, 如果仅针对语音服务, 则可以表示为 "271zh-CN003"; 如果只考虑客户的需求表达, 而不关心表达自身的类型信 息 , 甚 至 仅 用 "271" 表 示 即 可 。 例 二 : TVTKT11200000000014047730305000000000001240003fr-CH000
• TV = Traveling Service旅游服务 (主行业)
• TKT = Ticketing票务(子行业)
· 1120000000 =一级行业业务范畴一 1 (飞机票 ) 二级行业业务范畴一 1 (机票改签 ) 三级行业业务范畴一 2 (延后 ) 0000000 (再无更细分范畴)
• 001404773030500000000000 = 国家号 001 (美国) 404 (乔治亚州、 亚 特兰大市) 773030500000000000 (美国 Delta航空公司)
• 12400 = 一级机构业务范畴一 1 (折扣票) 二级机构业务范畴一 2 (淡季) 三级机构业务范畴 (亚太区) 00 (再无更细分范畴)
• 03 = 图像(客户提供的 A语言信息类型为"图像", 如: 客户在 Delta官 方网站上进行机票改签操作时,遇到系统报错,客户将屏幕截图,作为向 Delta 客服求助的自然表达。 )
• fr-CH =瑞士法文
· 000 =无方言
在此例子中, Y语言信息所对应的 A语言信息是通过图像识别得到的。 同理, 在提供服务的主体确定的情况, 上述的行业代码、 机构代码可以作为 系统缺省值预设。 在这种情况下, 可以将 Y 语言信息表示为 "11200000001240003fr-CH000"; 如果只考虑客户的需求表达, 而不关心表达 自身的类型信息,仅用 "112000000012400"表示即可; 如果针对特定应用 3位 数字表示行业业务代码, 3 位数字表示机构业务代码, 仅用" 112124"表示即 可。
以上只是根据本发明实施例的规则化标准表达(Y语言信息) 的例子, 可以釆用不同的代码位数和代码排列顺序, 也可以釆用不同的代码表示或编 码方式。
来自客户的自然表达( A语言信息)往往体现了该客户的具体需求, 如 前所述,首先将客户的 A语言信息自动转换为 X语言信息或无需转换的语言 信息(当 A语言信息是文字信息的时候), 然后将 X语言信息或文字语言信 息转换为编码形式的标准表达(Y语言信息)。 在前面的例子中, Y语言信息 可以包括行业代码, 行业业务代码, 机构代码, 机构业务代码和表达信息代 码。 可选地, A语言信息也可以包括体现客户需求范畴下的具体参数(可称 之为 "需求参数"), 如: "转 5000块给张三" (例一)、 "我想看一部电影, 叫 《中国合伙人》" (例二)等等。 特定的需求代码集(例如包括前述的行业代 码, 行业业务代码, 机构代码, 机构业务代码和表达信息代码中的一种或多 种)对应特定的参数集。 如上例二, 若 "看电影" 的需求代码是 123, 其对 应的参数集可以包括参数: 电影名称。 那么。 这个 A语言信息对应的 Y语言 信息是 "123 <中国合伙人〉"。 123是需求代码, <〉里的五个中文字是需求参 数。 在 Y语言信息中将需求代码与需求参数区分的方式有多种, 可以是利用 诸如 "<〉" 的符号, 也可以是用空格, 还可以用特定顺序排列等方式。 前述 的将客户的 A语言信息转换为可由计算机处理的某种语言形式的信息的过 程, 可以通过语音信号处理技术、 语音识别技术、 图像识别技术和视频处理 技术来实现, 这些技术可以是已有的技术。 实际上, 根据本发明实施例的编 码化标准表达思想也可以被应用到自然表达的识别处理中。
下面, 我们先以语音信息的处理为例, 介绍自然表达的识别处理, 并进 一步说明本发明的技术思想在自然表达识别处理中的应用。 图 6示例性地示 出了对语音信息的处理过程。在该处理过程中, 实现了从 A语言到 D语言的 处理。 需要注意的是, 图 6中的 "X语言" 信息与 "A语言" 信息的对应关 系, 以及 "X语言"信息与 "B语言"信息的对应关系, 仅起示范说明作用。
A语言, 即声波, 是由声波釆集设备(如: 麦克风)收集的物理层数据。 X语言是对 A语言数据进行语音信号处理( Speech Signal Processing )后 所得到的第一逻辑层数据, 本发明中称之为 "X语言"。 X语言是由 X元素 的各种排列组合形成的语言。 X元素是系统通过某种建模工具, 如: 高斯混 合模型 ( Gaussian Mixture Model, GMM ), 将声波自动切割成的高低不同的 若干柱状元素。 图 7示出了一个利用高斯混合模型将釆集的声波(以直方图 表示)转换为 X元素 (以矢量量化直方图表示) 的例子。
根据不同的建模工具, 应用于不同的自然语音集, X元素的数量可以控 制在一定的范围内 (例如, 200以下)。 根据本发明的实施例, 将 2位 ASCII 字符的组合定义为 X元素的 ID, 如图 8所示。 也就是说, X元素的数量最 高可达 16,384 ( 128 x 128 = 16,384 ), 可以满足未来因声波建模技术的进一步 发展而需增加 X元素数量的需求。切割后的声波单元与 X元素是——对应的, 由于 A语言信息可以认为是声波单元的组合, X语言信息是 X元素的组合, 图 6中的从 A语言到 X语言的转换(或称 "识别") 关系是 "多对多" 的关 系。 图 6中示出了用 ASCII字符表示的 X元素的例子。
"B语言", 是由 B元素的各种排列组合形成的语言, 是图 6中的第二 逻辑层数据。 X元素的全部或部分排列组合形成 B元素, 因此也可以理解为 X语言转换为 B元素, 而 B元素构成了 B语言。 于是, 从 X语言到 B语言 的转换关系也是 "多对多" 的关系。 B元素可以是音素, 而 B元素的某些排 列组合构成音节。 这里的 "音素" 和 "音节" 与其在语言学范畴下的含义相 同。 图 6中示出了 B元素的例子, 这些例子是中文(汉语) 的音素。
"C语言" 是由 C元素的各种排列组合形成的语言, 是图 6中的第三逻 辑层数据。 B元素的全部或部分排列组合形成 C元素, 因此也可以理解为 B 语言转换为 C元素, 而 C元素构成了 C语言。 于是, 从 B语言到 C语言的 转换关系也是 "多对多" 的关系。 如果沿用音素、 音节的语言学体系, C元 素对应于自然语言中的 "字"。 图 6中示出了 C元素的例子, 这些例子是中 文的字。
"D语言"是由 D元素的各种排列组合形成的语言, 这是图 6中的第四 逻辑层数据。 C元素的全部或部分排列组合形成 D元素, 因此也可以理解为 C语言转换为 D元素, 而 D元素构成了 D语言。 于是, 从 C语言到 D语言 的转换关系也是 "多对多" 的关系。 如果沿用音素、 音节、 字的语言学体系, D元素对应于自然语言中的 "词 " 或 "短语"。 图 6中示出了 D元素的例子, 这些例子是中文的词。
图 6中的 "C语言"例子和 "D语言"的例子看上去内容相同,均由 "我"、 "的"、 "信"、 "用"、 "卡"、 "丟"、 "了" 顺序组成, 但是, 熟悉中文的人可 以知道,仅从 C语言来进行理解,会产生艮大的多义性, 而转换为 "D语言" 后, 该表达的含义就比较确定了。 对于其它语种而言, 从字 词或短语的转 换对于语义理解也是十分重要的, 特别是由智能系统(语音机器人) 实现语 音识别的情况下。 根据不同的自然语言, "字" 和 "词", 也就是 C语言信息 和 D语言信息, 也可能归为一个语言信息层级。
"Y语言"是第五逻辑层数据 (如图 8所示 ), 是指对原始自然语言信息 A进行理解后获得的体现 "意思" 或者 "含义" 的语言信息。 本发明前述定 义的 "标准表达" 即为 "Y语言" 的一种形式。 根据本发明的实施例, 例如: 银行业可以用业务编码 "21" 代表 "信用卡挂失" 的含义; 可以用业务编码
"252" 代表 "信用卡部分还款" 的含义, 而 "252-5000" (需求代码 = 252, 需求参数 =5000 )则代表 "信用卡还款 5000元" 的含义; 娱乐业可以用编码 "24"代表 "观看电影"的含义, 而 "24-中国合伙人"(需求代码 =24, 需求参 数= "中国合伙人")则代表 "观看电影《中国合伙人》" 的含义。 从 D语言 到 Y语言的转换关系也是 "多对多" 的关系。
图 9示意性地示出了从釆集的声波( A语言信息)到 Y语言信息的逐层 转换过程。 从图 9可以看到, 从 "声波" ( A语言信息)到 "X元素" (X语 言信息), 再到 "音素"(B语言信息), 再到 "字"(C语言信息), 再到 "词" ( D语言信息 D ), 最后到 "意思" 或 "含义"(Y语言信息), 是对六种语言 信息的五次转换(翻译)。 从数据库的数据结构角度, 是从 "声波"这种初始 语言信息 A开始, 通过对五种语言构成元素的排列组合的路径选择, 找到或 者对应到第六种语言信息数据, 也就是目标语言信息 Y。
由于要进行前述的五次语言信息转换, 因此, 机器人也要具有这五种信 息语言转换的能力。 一般而言, 可以将这五步转换分为三个阶段。 在这三个 阶段中, 为了对语音机器人进行训练, 都需要人工辅助识别。
第一阶段: 从 Α语言信息(声波)到 C语言信息(字)。 从 A语言信息 (声波)到 B语言信息(音素)的两步转换由于借助了语言信息 X的信息提 取和转换算法(诸如前述的高斯混合模型),一般可以由机器人比较准确地自 动完成。 但是, 从 B语言信息(音素)到 C语言信息(字)的转换, 可能会 发生较高的错误率。 例如, 以中文为例, 如图 6例子所示, 客户输入的原始 语言信息为 "乒乓球拍卖完了",可能因为客户发音或口音的问题, "乒乓球" 可能被分别识别为 "平板就", "拍"可能被识别为 "怕", 结果这段声波最终 被转换成 "平板就怕卖完了" 七个字。 为了提高机器人的识别准确度, 特别 是针对诸如上述发音或口音的问题, 需要对机器人的识别结果进行纠正, 通 常釆用人工辅助识别的方式。 此阶段的人工辅助识别称为转写 ( Transcription I所谓转写,就是转写人员通过使用特定的转写工具,将 "声 波" (A语言信息)进行精准切割, 然后将切割出来的波段各自转成相应的 "字" (C语言信息), 也就是为机器人定义 A语言 (声波) 语言 (字) 的转换 /翻译关系。 切割是否精准, 关键取决于转写人员是否足够细心, 对转 写工具掌握的熟悉程度; 而能否准确转成相应的 "字", 关键取决于转写人员 对这段声波所处的语境, 以及上下文(位于这段声波前后的其他声波), 是否 已经准确理解。 特别是汉字, 同音字很多, 也加大了转写人员精准工作的难 度。
第二阶段: 从 C语言信息(字)到 D语言信息(词、 短语)。 从字到词 的转换同样会发生歧义, 如前例, 即使从声波到字的识别是准确的, 得到了 "乒乓球拍卖完了" 七个字的顺序排列结果, 但是仍然会转换为至少 "乒乓 球拍 + 卖 + 完了" 和 "乒乓球 +拍卖 + 完了" 两种结果, 其含义显然是 不同的。 同样, 可以釆取人工辅助识别来进行纠正。 此阶段的人工辅助识别 称为关键字切割( Keyword Spotting ), 也可以简称为 "切词", 就是切词人员 将转写出来的 "字" (C语言信息)进行组合, 形成 "词(关键字)" (D语言 信息), 也就是为机器人定义 C语言(字) 语言(词)的转换 /翻译关系。 切词是否准确, 往往取决于切词人员对业务知识的掌握程度。 针对不同的领 域, 需要熟悉该领域业务内容和用语的人员进行切词操作, 其成本也会比转 写有所提高。
第三阶段: 从 D语言信息到 Y语言信息, 也就是意思理解。 仅仅获得 了一定顺序排列的词语, 往往还不能准确了解客户的真实含义。 例如, 客户 说 "我的信用卡不见了", 机器人识别不出其含义, 技术员就将 "我的"、 "信 用卡"、 "不见了" 作为新的关键字放入数据库的语法表中; 另一个客户说: "俺的刷刷卡丟了",机器人又识别不出其含义,技术员就将 "俺的"、 "刷刷 卡" (就是 "信用卡"的意思)、 "丟了"作为新的关键字放入数据库的语法表 中。 这样, 通过人工辅助的方式, 将客户的含义或者需求加以理解, 并归纳 加入数据库。 这种人工辅助识别称为关键字堆砌( Keyword Pile-up ), 简称为 "堆词", 就是积累 "词" 的排列组合, 并根据其的含义予以归纳入数据库。 这项工作的工作量也是巨大的,并且也需要训练人员的专业知识来辅助理解。
如前所述, 根据本发明实施例的自然表达处理方法, 首先对客户的自然 表达( A语言信息)进行自动转换得到 X语言信息, 或无需转换直接得到 C 语言信息(当 A语言信息是文字信息的时候); 然后将 X语言信息或 C语言 信息转换为 Y语言信息。结合前面的分析,所述无规则自然表达可以是 X语 言信息、 B语言信息、 C语言信息、 D语言信息中的一种。 也就是说, 自然 表达处理的过程可以是: A^X^Y, A^B ^Y, A^C^Y, A^D^Y 中的 一种。
如果依照图 9 所示的语言信息转换模型, 需要进行以上六种语言 A^X^B ^C^D^Y 的多层 "多对多" 关系转换, 在学术上被称为 MLP ( Multi-Layer Perception, 多层感知), 如图 10所示。 多层 "多对多" 关系转 换的弊端是: 每做一次转换, 都会造成原始信息在某种程度上的失真, 同时 也会给系统增加更多的处理负荷, 造成进一步性能损失。 转换的次数越多, 原始信息的失真越厉害, 而系统的处理速度也越曼。 同理, 由于在前述三个 阶段中的机器人训练均需要人工辅助识别的介入, 一方面会产生很高的工作 量和成本, 另一方面多次人为介入也会提高出错的概率。 因此, 如果能够实 现 A X Y的转换, 从而省去 X B C D Y的多层 "多对多" 关系转 换, 则可以提高表达信息转换的正确率和效率, 也可以降低人工辅助识别的 工作量和出错率。
根据本发明的技术, 首先通过建模工具, 将文字、 语音、 图形、 视频这 些非规则化的自然表达信息转换成 X语言信息;然后将 X语言作为左侧语言, Y语言作为右侧语言, 通过使用机器翻译(MT )技术, 实现 X语言信息到 Y语言信息的转换。
具体而言, 以处理语音这种非规则化自然表达信息为例, 首先利用 "语 音信号处理( Speech Signal Processing )"技术自动将 A语言自动转换 /翻译成 X语言 (基于目前的 "语音信号处理" 技术, A X的转换准确率普遍可高 达 95%以上, 而改进的 "语音信号处理" 技术在降噪方面做得更好, 可将 A^X的转换准确率提升至 99%以上 ); 然后再利用机器翻译技术实现 X Y 的自动机器翻译, 而无需再通过 X B C D Y的多层转换。
可以利用类似于基于对实例样本进行统计分析的机器翻译算法来将转换 得到的无规则自然表达( X语言信息)转换为规则化标准表达( Y语言信息)。 这种机器翻译算法要求 X语言与 Y语言之间对应数据的量足够大,而且足够 准确。
根据本发明的方法, 考虑到已可以实现 A X的精确机器自动转换, 为 了积累 X语言与 Y语言之间的对应数据, 可以积累 A语言与 Y语言之间的 对应数据。 于是, 本发明的方案提供了 MAU ( Mortal Aided Understanding人 工辅助理解)这一新的人工座席工作模式, 通过人工理解结合代码输入, 实 现 A语言与 Y语言之间的对应数据积累。 如前例, 可以用 "271" 这个需求 代码来表示调整信用卡额度的含义, 同理, 也可以用 "21" 来表示信用卡挂 失的含义, 这样就可以用 "21"来对应于前述的 "我的信用卡不见了"或 "俺 的刷刷卡丟了" 的自然表述信息。 这种简洁的代码输入方式, 将传统 "说话 的座席"转为 "不用说话的座席", 令座席的工作变得更舒适, 工作效率得以 大幅提升之余, 更充分利用了人类最高价值的理解能力, 准确而高速地收集 海量的 A/X语言与 Y语言的对应数据,提供给 MT引擎进行循环迭代, 自学 习 A/X Y的转换 /翻译规律, 形成 A/X Y的翻译模型。
以下介绍根据本发明的机器翻译技术及机器翻译机器人训练技术的工作 原理。
机器翻译是用来对两种语言进行自动翻译的一种人工智能技术。 这里所 指的 "语言" 不是狭义的国家语言(例如: 中文、 英文 ... ... ), 而是广义的信 息表现方式。 如前所述, 以表现方式分, 语言可分为四大类: 文字、 语音、 图像、 动画 (或称 "视频")。
语言是由元素集里的元素, 通过各种排列组合而形成的信息。 例如: 英 文文字是由 ASCII字符集(元素集)里的 128个 ASCII字符(元素), 通过 各种一维(串行)排列组合而形成的一种语言; 中文这种语言, 就是由国标 码里的几千个中文字再加上标点符号 (构成中文信息的基本元素) 的无限排 列组合; 又例如: RGB平面图像是由红、 绿、 蓝三种子像素, 通过各种二维 (长与宽)排列组合而形成的另一种语言。
任何两种语言之间存在着某种转换 /翻译规律,都可以通过分析两种语言 元素排列组合的对应关系, 找出两种语言之间的自动转换 /翻译规律。 首先需 要人工收集两种语言的对应数据(或称 "翻译样本"), 然后通过对两种语言 元素排列组合的迭代循环, 自动找出两种语言之间的自动转换 /翻译规律, 形 成两种语言的翻译模型。
做机器翻译需要两张数据表: "训练数据表(Training Dataset )" 和 "检 验数据表( Testing Dataset ),,。
这两张表的数据结构是类似的: 存储的是一对对的数据, 左值是 "左语 言" (或称 "源语言"), 右值是 "右语言" (或称 "目标语言")。 我们可以形 象地做这么一个比喻: "训练数据表 " 是人类给 MT机器人自学的课本, 而 "检验数据表" 则是人类给 MT机器人出的考题, 用以评估机器人的自学效 果。
下面是英文 中文的 MT "训练数据表" 和 "检验数据表" 的例子:
Figure imgf000021_0001
MT机器人是以组成语言的元素为单位进行排列组合的迭代循环的。 如 上例中,通过训练数据表中的 #3和 #4两组数据对,发现英文" May I have your" 这 15个 ASCII字符元素( 3个英文字母 "May" + 1个空格 + 1个英文字母 "I" +1个空格 + 4个英文字母 "have" + 1个空格 + 4个英文字母 "your" ) 的排列组合对应着中文的 "请问您" 这 3个国标码中文字的排列组合; 通过 训练数据表中的 #2和 #5两组数据对, 发现英文 "age" 这 3个 ASCII字符元 素的排列组合对应这中文的 "年纪" 这 2个国标码中文字的排列组合。
因此, 如果机器人能将检验数据表中的英文 "May I have your age?" 准 确翻译成中文 "请问您年纪? ",那就证明机器人学会了这一句的中英文翻译。 如果不能, 那就证明机器人还没学会。 那么机器人就需要修正一下自己的学 习方法(例如,寻找另一条路径去尝试再学习),对训练数据表重新消化一次, 这又是一次迭代; ......如此不断重复着这种"迭代修正", 可使得机器人的翻 译准确率不断地爬升。 当爬升到一定程度(例如, 翻译准确率为 70% )后, 机器人的翻译准确率可能会一直徘徊在这个水平, 再也很难上去了, 也就是 说遇到了 "机器自学习 "的瓶颈, 那么就需要为机器人增加 MT训练数据表数 据。 MT训练数据表的数据可以从外部数据库导入, 也可以通过"人工辅助理 解"来进行生成和添加。
例如, 沿用之前信用卡业务的例子,假设所得到的无规则自然表达为"我 的信用卡能透支的太少了", 而机器人理解力不够成熟的时候, "人工辅助理 解"可以介入, 通过人工将该表达理解为"我想增加我的信用卡额度", 并输入 与之对应的 Y语言信息。 可选地, "人工辅助理解"处理无需记录对于自然表 达的理解过程和理解结果,只需要记录作为最终处理结果的对应标准表达( Y 语言信息)。 这样可以简化人工操作, 节省资源。 例如, 操作员可能只需要输 的太少了"的处理。 例如, 将新的自然表达实例, 例如上述的自然表达 "我的 信用卡能透支的太少了", 及其对应的标准表达 "271" 添加进现有 MT训练 数据表, 从而增加和更新 MT训练数据表数据。 于是, 通过"人工辅助理解", 一方面可以实现对于目标自然表达的准确而稳定的转换(将其转换为标准表 达 - Y语言信息), 另一方面可以实现 MT训练数据表数据的高效添加与更 新, 从而使得系统 MT训练数据表中的数据更加丰富、 准确, 也可能使得机 器人的翻译(转换) 准确率高效得到提升。
理论上, MT机器人需要对 #3的左值 "May I have your time" 这 20个 ASCII字符元素的所有排列组合进行穷尽罗列, 也需要对 #3的右值 "请问您 现在什么时间了" 这 10个国标码中文字的所有排列组合进行穷尽罗列。 即, MT机器人需要对训练数据表中的每一对数据的左右两组元素的所有排列组 合都进行穷尽罗列。 通过这种元素级的穷尽罗列, MT机器人一定能发现很 多重复出现的排列组合(如 "your"、 "May I have your" . "age" . "time" . "您"、 "请问您"、 "年纪" ... ...),从而能找出这些重复出现的左语言元素排 列组合和右语言元素排列组合之间的某种对应关系, 也就是两种语言之间的 翻译模型。 也就是说, 训练数据表里左右语言数据对的数量越大, MT机器 人所能发现的重复出现的左右两种语言元素的排列组合也就越多, 而左右两 边重复出现的元素排列组合的对应关系也就越多, 那么 MT机器人所掌握的 左右两种语言的转换 /翻译规律也就越多, 翻译模型也就越成熟。 因此, 釆用 根据本发明技术思想的 "规则化标准表达"和 "人工辅助理解", 可以更高效 地积累 MT训练数据表数据, 帮助实现机器人自学习和自动机器翻译。
本发明中的 X语言 语言之间的机器翻译, 与中英文的机器翻译原理 是一样的, 只不过我们把英文改成了 X语言, 把中文改成了 Y语言, 而左右 两种语言的元素集不同而已。
如前所述, 机器翻译技术可用于将一种语言自动翻译成另一种语言。 其 技术原理就是对收集到的两种语言的配对信息 (左侧语言和右侧语言 )进行 基本元素级分析, 通过对大量的语言信息对的基本元素各种排列组合进行循 环迭代比较, 从而找出两种语言之间的转换 /翻译规律, 形成两种语言的翻译 模型。
本发明的技术将机器翻译技术的应用范围从对不同国家语言之间进行自 动翻译, 延展到将所有非规则化多媒体自然表达信息 (文字、 语音、 图像、 视频, 即 A语言信息) 自动转换成所述的规则化标准信息(Y语言信息), 以便各行各业的业务系统可以对它们进行处理, 从而实现真正意义上的、 实 用的 NLP (自然语言处理)。
由于不需要进行传统的机器翻译所需的多层语言学分析, 而釆用对实例 基本元素级分析的方式, 可以增加翻译的准确度和快捷度, 同时, 也很容易 通过添加自然表达实例和标准表达来进行更新和扩充。
对于本发明实施例的自然表达处理而言, 因为只需要进行自然表达( A 语言信息 )到标准表达(Y语音信息 )的转换, 换句话说, 只需建立 A/X Y 的翻译模型, 并非对文本的语言翻译结果, 因此无需对翻译结果进行^ ί爹改的 处理。
此外, 根据本发明实施例的自然表达处理, 可以被限制用于具体行业机 构的具体业务, 例如, 上述的信用卡业务, 则处理系统所需的 ΜΤ训练数据 表规模可以大大缩小, 由此在提高机器人理解成熟阀值的同时, 降低 ΜΤ训 练数据表构建和维护的成本, 同时也可以有效缩短 Α/Χ Υ翻译模型的成熟 周期。 如前所述, 根据本发明实施例的自然表达处理系统, 实现了从自然表达 到编码化的标准表达的转换。该转换的基础在于存储 A/X语言信息与 Y语言 信息配对数据的 MT训练数据表, 以及在 MT训练数据表基础上得到的 A/X^Y的翻译模型。 因此, 需要釆集一定量的准确的 A/X语言数据和 Y语 言数据来生成 MT训练数据表,并通过机器人(信息处理系统)的自学习(自 训练)来形成 A/X Y的翻译模型。 而形成 MT训练数据表是可以通过人工 辅助理解来进行的。
图 1 示意性地示出了根据本发明一个实施例的自然表达处理方法的流 程。
在步骤 Sll, 系统接收自然表达信息(A语言信息), 如前所述, 该自然 表达信息可以是文本信息、 语音信息、 图像信息、 视频信息等。
在步骤 S21, 判断机器人的理解能力是否成熟。 其中, 对于机器人理解 是否成熟的判断, 是基于在一定时间区间内(根据具体应用要求设定),机器 人将 A语言信息转换成 X语言信息, 然后将 X语言信息转换成 Y语言信息 的结果 Yl, 与人工将 Α语言信息直接转换成 Υ语言信息的结果 Υ2进行比 较, Y1和 Y2相同的次数, 除以比较的总次数, 得到的百分比, 就是机器人 理解准确率。 根据应用需要设定的机器人理解准确率, 我们称之为 "机器人 理解成熟阀值"。如果机器人理解准确率低于机器人理解成熟阀值, 系统则认 为机器人理解尚未成熟,不会釆用机器人转换结果 Yl, 而仍继续釆用人工转 换结果 Υ2, 以保证系统对 Α语言信息理解的准确与稳定。 同时, 系统将 A 语言信息通过机器自动转换的 X语言信息 (左侧语言), 以及人工转换结果 Y2 (右侧语言 )加入 MT训练数据表中, 供 MT机器人自训练使用。
如果机器人理解成熟了,则在步骤 S22让机器人自动将该自然表达 A直 接转换为标准表达 Y; 如果机器人理解还未成熟, 则在步骤 S23由机器人尝 试将该自然表达 A转换为标准表达 Yl, 同时在步骤 S24由 MAU座席将该 自然表达 Α转换为标准表达 Y2。
在步骤 S32, 若步骤 S21判断机器人理解能力已经成熟, 则输出由机器 人自动转换的结果 Y; 否则, 输出有 MAU座席人工转换的结果 Y2。
可选地, 在步骤 S31, 对自然表达 A、机器人尝试转换的结果 Yl、 MAU 座席人工转换的结果 Y2进行如下的后续处理: 将 A自动转换成 X语言信息 (左侧语言)连同 Y2 (右侧语言), 作为一对新的配对数据放入 ΜΤ训练数 据表中; 将 Y1和 Υ2进行比较, 用作『判断机器人理解是否成熟』的统计数 据。可选地,将原始数据 Α保留, 当未来 A X转换技术进一步发展成熟(转 换准确率更高) 时, 更新 MT训练数据表的左侧语言数据。
图 2示意性地示出了根据本发明一个实施例的自然表达处理及回应方法 的流程。
在图 2所示的处理中,首先如图 1的处理,在步骤 S12接收自然表达 A。 然后在步骤 S31判断是否能够通过机器转换将自然表达 A转换为标准表达 Y。 该步骤等同于图 1中步骤 S21。 类似于图 1的处理, 当在步骤 S31判断 不能通过机器转换得到所需的标准表达时, 在步骤 S32进行人工转换处理。
在实际应用中, 可能存在即使通过人工处理仍不能理解所识别的自然表 达或者理解客户所表达的需求, 这时, 在步骤 S33作出提示客户重新输入的 回应, 然后处理回到步骤 S12, 接收客户再次输入的自然表达信息 A。 "提示 客户重新输入的回应 "可以是, 例如, 语音提示"不好意思, 请您再讲一遍您 的需求", "请您讲慢一些"; 文字提示"不好意思, 请您写具体些"; 或者图像 提示等。
在步骤 S34输出机器转换或人工转换的标准表达。 在步骤 S35查询与该 标准表达匹配的标准回应。标准回应可以是预先存储在数据库中的固定数据, 也可以是预先在数据库中存储标准回应的基础数据, 然后经系统运行, 将基 础数据与个案变量参数合成而生成标准回应。 在一个实施例中, 设置标准回 应 ID来作为回应数据的主键, 并在数据库中设置标准表达(Y语言信息) 的需求代码与标准回应 ID的对应关系表, 从而将标准表达(Y语言信息) 的需求代码与回应数据相关联。 以下的表 1〜表 3分别示意性示出了表达数 据表、 表达回应关系表和回应数据表的例子。 可选地, 标准表达与标准回应 ID可以是多对一的关系, 如表 4所示。 此外, 在其它实施例中, 由于标准表 达(Y语言信息) 的需求代码本身是编码化的, 也可以直接用标准表达(Y 语言信息) 的需求代码作为回应数据的主键。
Figure imgf000025_0001
收到了 语骨 [表达 1] 转 5000块给我妈 文字 [表达 2]
<转账失败页面截屏 > 图像 [表达 3]
2-5-1000 电话按键 [表达 4] 表 1
Figure imgf000026_0001
表 2
Figure imgf000026_0002
表 3 表达回应对应表 2
标准回应 ID 标准表达
[回应 80] [表达 74]
[回应 80] [表达 12] [回应 80] [表达 23]
[回应 81] [表达 31]
[回应 81] [表达 57] 表 4 如前所述, 标准表达可以包括与自然表 目关的信息, 例如,表达类型, 语言类型, 方言类型, 等等。 例如, 来自客户的自然表达为语音 "收到了", 通过转换后的标准表达查询得到标准回应为语音 "好, 知道了, 谢谢! "; 还 例如, 来自客户的自然表达为图像 "转账失败页面截屏", 通过转换后的标准 表达查询得到标准回应为视频"转账纠错简易教程"。
如果数据库中没有与所述标准表达匹配的标准回应, 则可以在步骤 S36 通过人工匹配与之相应的回应。 人工匹配可以通过输入或选择标准回应 ID 来将标准表达与该标准回应 ID相关联, 也可以直接将标准表达与回应数据 相关联, 还可以建立新的回应数据。 找不到标准回应的原因可能是该标准表 达是通过人工新添加的, 也可能是因为没有匹配到相同类型的标准回应。 然后, 在步骤 S37输出机器匹配或者人工匹配的回应。 可以根据不同的信息 类型来调用或者生成回应的内容。 例如, 对于语音回应, 可以回放真人录音 或者输出通过 TTS ( Text To Speech语音合成)的语音;对于用户数字化操作, 例如, 电话按键顺序组合" 2-5-1000", 通过程序运行完成"信用卡还款 1000 元"的操作。
而对于例如, "转 5000块给我妈"的文字信息,需要通过运行程序进行"转 账 5000元给 X女士"的操作, 但是系统可能并不预先掌握 "X女士"的账户信 息,一方面可能需要人工添加该账户信息以实现标准表达的转换,另一方面, 即使实现了标准表达的转换, 也可能查询不到对应的标准回应, 而需要人工 作出回应处理。 这时, 会生成新的回应数据(如操作程序), 也会手动或者自 动为该回应数据分配一个新的标准回应 ID, 并将该标准回应 ID与上述转换 的标准表 目关联。 于是, 在实现对于客户的自然表达回应的同时, 可以实 现人工辅助理解和训练, 更新表达一回应数据库。
根据本发明实施例的自然表达处理和应答方法, 可以利用标准表达快速 指向回应, 从而使得客户无需再花长时间遍历复杂的常规功能菜单来寻找自 己所需的自助服务。
另一方面, 与常规的应答方式不同, 人工操作主要限于后台的"决策"工 作, 包括确定标准表达(Y语言信息)需求代码, 选择回应(或回应 ID )或 者生成回应操作等, 但不需要在前台通过通话或者文字输入(输入标准表达 ( Y语言信息)需求参数除外)等方式来与客户直接进行交流。 从而可以大 量节省人力资源, 大幅提升工作效率。 此外, 系统对客户提供的标准化回应, 相对于人工座席直接对客户提供的传统的自由式回应,不受人工座席的情绪、 声腺、 口音、 业务熟练度等诸多因素影响, 更能保证客户体验的稳定性。
再者, 通过系统(机器人) 的自动学习、 训练及人工辅助理解, 可以建 立标准化的自然表达一标准表达一标准回应数据库, 逐渐实现系统自动理解 和回应。并且该数据库中的自然表达数据还可以具有颗粒度小、业务范畴窄、 数据保真度高等优点, 从而降低机器人训练难度, 缩短机器人智能的成熟周 期。
图 3示意性示出了根据本发明实施例的智能应答系统。 如图 3所示, 该 智能应答系统包括智能应答设备 1 (相当于服务器端), 以及呼叫设备 2 (相 当于客户端), 客户 8通过呼叫设备 2与智能应答设备 1通信, MAU人工座 席 9 (系统服务人员)对智能应答设备 1进行人工操作。 其中, 智能应答设 备 1包括对话网关 11, 中央控制器 12, MAU工作站 13, 和机器人 14。 可 选地, 智能应答设备 1还包括训练器 15。
客户 8指的是机构远程销售和远程服务的对象。 远程销售通常指的是机 构通过自己专属的电话或互联网通道, 以"呼出"的形式主动联系客户, 试图 对其推销自己的产品与服务。 远程服务通常指的是机构的客户通过机构专属 的电话或互联网通道, 以"呼入"的形式主动联系机构, 询问或使用机构的产 品与 良务。
呼叫设备 2可以是机构为了对客户 8进行远程销售 (呼出业务)和向客 户提供远程服务(呼入业务) 而设立的专属电话通道或互联网通道。 电话通 道呼叫系统例如自动呼叫分配系统( Automatic Call Distribution, ACD ) (如, Avaya的 ACD ), 是机构通过后台的自动业务系统(例如, 基于电话按键技 术的传统 IVR系统, 或者基于智能语音技术的新型 VP ( Voice Portal )语音 门户系统)和人工座席, 与客户 8以语音形式进行交互的对话通道。
互联网通道呼叫系统例如基于即时通讯 ( Instant Messaging, IM )技术 的互联网呼叫中心系统( internet Call Center, ICC), 是机构通过后台的客户 自助系统(例如, 自然语言处理系统( Natural Language Processing, NLP ) ) 和人工座席, 与客户 8以文字、 语音、 图像、 视频等形式, 进行交互的对话 通道。
智能应答设备 1使得机构可以管控其后台的自动业务系统和人工座席, 以及与客户 8之间以文字、 语音、 图像、 视频等多媒体形式进行的对话, 从 而实现机构与客户间的标准化和自动化交互对话。
对话网关 11在智能应答设备 1中担当 "前置门户"的角色,主要职能包括: 经由呼叫设备 2接收来自客户 8的无规则自然表达(以文字、 语音、 图像、 视频)和规则化非自然表达(如以电话键盘按键等形式),发送给中央控制器 12进行后续处理; 接收来自中央控制器 12的指令, 实现对客户 8表达的回 应 (以文字、 语音、 图像、 视频、 程序等形式)。
如图 4所示, 对话网关 11包括表达接收器 111, 身伤^人证器 112, 回应 数据库 113和回应生成器 114。
表达接收器 111通过呼叫设备 2接收来自客户 8的表达。 该表达可以是 前述的各种无规则自然表达和规则化非自然表达。
可选地,在表达接收器 111之前设置身份认证器 112。 该身份认证器 112 可以在对话的初始阶段识别和验证客户 8的身份。 可釆用传统的 "密码输入" 技术(如: 电话按键输入密码、键盘输入网站登录密码, 等等); 也可釆用新 的"密语 ( Pass-phrase ) +声纹(Voice-print )识别"技术; 也可同时混合釆用 以上两种技术。 传统的密码验证技术虽然不方便, 但早已被市场广泛接受和 习惯使用, 可在关键敏感的对话节点上(如, 银行转账)作为首要的客户身 份识别和验证手段;后者虽然方便很多,但尚未被市场广泛接受和习惯使用, 可在非关键敏感的对话节点上(如, 查询购物积分)作为大幅提升客户体验 的全新的客户身份识别和验证手段, 也可在关键敏感的对话节点上, 作为增 强前者安全性的辅助识别和验证手段。
设置身 人证器 112, 并釆用 "密语 + 声纹识别"的客户身份识别和验证 方法, 可以提升客户体验, 使得客户无需再记忆多个不同密码; 降低在 "密码 输入"传统方法中密码被盗的安全风险; 此外, 将"密语 + 声纹识别"方法和 "密码输入"传统方法混合使用, 既能被市场广泛接受, 更能提升客户身份识 别和验证的安全性。
回应数据库 113存储用以回应客户的回应数据。 类似于以上表格中举例 示出的, 该数据可以包括以下多种类型:
文字: 预编的文字, 例如, 网银 FAQ (常见问答) 中的文字答案。
语音: 预录的真人录音, 或没有变量的 TTS语音合成录音, 例如: "您 好! 这里是未来银行。 请问有什么我可以帮到您的? "。
图像: 预制的图像, 例如, 北京地铁网络图。 也包括非视频动画, 例如: 银行给客户介绍如何在网银系统进行国际汇款操作的 GIF文件、 FLASH文 件, 等等。
视频: 预制的视频, 例如, 电熨斗供应商给客户演示如何使用它们的新 产品。
程序:预编的一系列指令,例如,在客户以说话表达"我想看中国合伙人", 云端智能电视机将按照客户的要求进行操作回应客户:首先自动打开电视机, 然后从云服务器端自动下载并緩存《中国合伙人》这部电影, 最后开始播放。
模板: 可填变量的文字、 语音、 图像、 程序模板。
回应生成器 114接收中央控制器 12指令, 通过调用和 /或运行回应数据 库 113中的数据来生成对客户 8表达的回应。 具体而言, 可以按照指令中的 标准回应 ID, 从回应数据库 113中查询调用回应数据, 或显示文字、 图像, 或播放语音、视频, 或执行程序; 也可以依指令回应数据库 113中调用模板, 并将指令中传送的变量参数予以填充, 或播放实时产生的 TTS语音合成(例 如, "您已成功还款信用卡 5000元。 "其中, "5000元"为指令中的变量 或 显示一段文字, 或显示一幅实时产生的图片或动画, 或执行一段程序。
可选地,中央控制器 12可以对回应数据库 113中的数据进行维护和更新, 包括回应数据、 标准回应 ID等。
中央控制器 12接收来自表达接收器 111的客户需求表达信息 (包括: 无 规则自然表达和规则化非自然表达), 并与机器人 14以及经由 MAU工作站 13与 MAU人工座席 9协同工作, 从而将客户的无规则自然表达信息依前述 的方法转换为标准表达, 并根据该标准表达确定与之对应的标准回应 ID, 然 后将该标准回应 ID发送给回应生成器 114。 可选地, 中央控制器 12可以更 新 MT训练数据表中的数据。
机器人 14是实施上述人工智能技术的应用机器人。 机器人 14可以实施 对文字信息、 语音信息、 图像信息、 视频信息等自然表达( A语言信息) 的 转换, 得到标准表达(Y语言信息)。 如前所述, 当机器人 14的理解能力达 到一定水平时, 例如, 在某个特定范畴的判断理解能力成熟时, 其可以独立 进行 A X Y的转换, 而无需人工座席的辅助。 MT训练数据表可以设置在 机器人 14内,也可以是外置数据库,在其中存储的标准表达数据(右侧语言 ) 的需求代码可以与标准回应 ID相关联。该数据库可以由中央控制器 12更新。 另外, 用于文字翻译、 语音识别、 图像识别、 视频处理等的数据库可以是外 置数据库, 也可以设置在机器人 14内。
MAU工作站 13是智能应答设备 1与 MAU人工座席 9的接口。 MAU 工作站 13将经识别的自然表达或者客户原始表达呈现给 MAU人工座席 9。 MAU人工座席 9通过 MAU工作站 13输入或者选择标准表达, 然后 MAU 工作站 13将该标准表达发送给中央控制器 12。 可选地, 如果需要人工辅助 确定回应, 则 MAU人工座席 9通过 MAU工作站 13输入或者选择回应(或 者标准回应 ID )。
可选地, 在智能应答设备 1中还可以包括训练器 15。 该训练器 15用于 训练机器人 14将自然表达转换为标准表达的能力。 例如, 训练器 15 利用 MAU人工座席 9的判断结果去训练机器人 11,不断提升机器人 11在各个范 畴(例如, 前述的业务范畴和次级业务范畴等) 的机器人理解正确率。 针对 每个范畴, 在机器人理解正确率达不到 "机器人理解成熟阀值,,的情况下, 训 练器 15将 MAU人工座席 9的标准表达转换结果与机器人 11的标准表达转 换结果进行比较处理, 如结果相同, 相应增加该范畴"机器人判断准确次数" 和"机器人判断次数"各一次; 否则,将人工转换结果添加进 MT训练数据表, 作为新的机器人训练数据。训练器 15也可以指示机器人 14进行前述的"自学 习"。
此外,训练器 15也可以用于对机器人 14进行诸如文字翻译、语音识别、 图像识别、 视频处理等人工智能技术的训练。 训练器 15也可以对于 MT训 练数据表、 用于文字翻译、 语音识别、 图像识别、 视频处理的数据库进行维 护和更新。
可选地, 训练器 15也可以与中央控制器 12集成在一起。
可选地, 回应生成器 114和回应数据库 113可以独立于对话网关 11, 也 可以集成在中央控制器 12中。
智能应答设备 1可以实现前述的自然表达处理和应答方法。 例如, 对话 网关 11通过表达接收器 111从呼叫设备 2接收来自客户 8的无规则自然表达 信息, 并将其发送到中央控制器 12; 中央控制器 12指示机器人 11将该无规 则自然表达信息识别为计算机可处理的某种形式的语言信息及相关的表达信 息,然后指示机器人 11将该语言信息及相关的表达信息转换为标准表达;如 果机器人 11的理解力不够成熟或者未实现语料匹配,而不能完成标准表达的 转换, 则中央控制器 12指示 MAU工作站 13提示 MAU人工座席 9进行标 准表达的人工转换; MAU人工座席 9将机器人 11识别的语言信息及相关表 达信息转换为标准表达, 并通过 MAU工作站 13输入并发送到中央控制器 12, 可选地, MAU人工座席 9可以直接将未经识别的无规则自然表达信息 转换为标准表达; 中央控制器 12 查询表达一回应数据库, 检索出与标准表 达匹配的标准应答 ID,如果无匹配结果,则再通过 MAU工作站 13提示 MAU 人工座席 9进行标准回应的选择和输入相应的标准回应 ID, 可选地, MAU 人工座席 9也可以直接将标准表达与回应数据相关联, 或者建立新的回应数 据; 中央控制器 12指示回应生成器 114调用和 /或运行回应数据库 113中的 数据来生成对客户 8表达的回应; 然后, 对话网关 11将回应通过呼叫设备 2 反馈给客户 8; 可选地, 中央控制器 12根据 MAU人工座席 9确定或添加的 标准表达或标准回应分别维护和更新 MT训练数据表或回应数据库, 并且相 应维护和更新表达一回应数据库。
图 5示意性地示出了一个由 MAU工作站呈现给 MAU人工座席 9的操 作界面的例子。 如图 5所示, MAU工作站 13的操作界面包括: 客户表达显 示区 131, 对话状态显示区 132, 导航区 133, 范畴选择区 134和快捷区 135。
客户表达显示区 131显示客户的自然表达, 例如, 呈现为从文字、 图像、 语音转换而成的文本等形式。
对话状态显示区 132该区显示客户 8与 MAU人工座席 9或机器人 14之 间的对话实时状态信息, 如: 对话来回次数、 对话总时长、 客户信息等等。 该显示区域也可以不设置。
导航区 133显示 MAU人工座席 9目前已选择到达的范畴。 该区左端显 示目前范畴路径的文字版本(如图中所示: 银行 信用卡), 右端显示该范畴 对代码(如图中所示: "12", " 代表"银行"范畴, "2"代表在 "银行 "范畴的下 一级范畴"信用卡"。与前述的例子不同,在该应用中,用" 1"代表"银行"范畴, 而未用 "BNK", 二者的标识作用是相同的)。
范畴选择区 134供 MAU人工座席 9选择下一级范畴。如图中所示: MAU 人工座席 9 已进入到"银行"范畴的下一级范畴"信用卡,,, 而"信用卡"这一级 范畴下辖 7个子范畴: "激活新卡"、 "申请新卡及申请进度查询"、 "还款" ......。 如客户 8的表达是"我的信用卡能透支太少了。,,, MAU人工座席 9就在当前 范畴"银行 信用卡"中选择 "7", 导航区将更新显示"银行 信用卡 调整信 用额度 127", 进入再下一级范畴。 MAU人工座席 9也可以在看到客户 8 的表达后, 在键盘上直接输入" 127", 到达目标范畴 "银行 信用卡 调整信 用额度"。这样,客户 8无需再花长时间遍历复杂的功能菜单树寻找自己所需 的自助服务, 只需直接说出自己的需求, MAU人工座席 9便能快捷地帮助 客户直接启动 "调整信用卡额度"处理, 从而, 用户体验变得容易便捷, 而目 前传统 IVR系统的自助服务流程利用率将得到大幅提升。
快捷区 135为 MAU人工座席 9提供了常用快捷键, 例如, "-"返回上层 范畴、 "0"转接人工座席、 "+,,返回顶层范畴(在这个例子中, 就是根范畴"银 行" )。快捷区 135也可以为 MAU人工座席 9提供了其它快捷键。快捷区 135 可以提高 MAU人工座席 9的处理速度。 快捷区 135也是可选设置区域。
这里只给出了 MAU工作站 13的操作界面的一个例子,其用于 MAU人 工座席 9对于标准表达的转换处理。 也可以通过类似的操作界面来进行对于 回应的人工处理。
根据本发明实施例的智能应答设备可以由一台或多台计算机、 移动终端 或其它数据处理设备实现。
根据本发明实施例的自然表达处理和应答方法、 设备及系统, 可以利用 标准表达快速指向回应, 从而使得客户无需再花长时间遍历复杂的常规功能 菜单来寻找自己所需的自助服务。
通过机器人的自动学习、 训练及人工辅助理解, 可以建立标准化的自然 表达信息一标准表达一标准回应数据库, 逐渐实现系统自动理解和回应。 并 且该数据库中的自然表达信息数据还可以具有颗粒度小、 业务范畴窄、 保真 度高等优点, 从而降低机器人训练难度, 缩短机器人智能的成熟周期。
与常规的应答方式不同, 人工操作主要限于后台的"决策"工作, 包括确 定标准表达( Y语言信息)的需求代码, 选择回应(或回应 ID )或者生成回 应操作等, 但不需要在前台通过通话或者文字输入(输入标准表达(Y语言 信息) 的需求参数除外)等方式来与客户直接进行交流。 从而可以大量节省 人力资源, 提升工作效率。 此外, 系统对客户提供的标准化回应, 相对于传 统人工座席直接对客户提供的传统的自由式回应, 不受人工座席的情绪、 声 腺、 口音、 业务熟练度等诸多因素影响, 更能保证客户体验的稳定性。
此外, 可以以具体的业务范畴(节点)为单位实现机器人的自动学习、 训练和成熟度评价, 从而逐点实现整体系统的智能化。在实际应用中, 该"机 器人理解逐点成熟"机制更容易得到机构的认可与接受,因为风险相对来说极 低, 旧系统改造成本不高, 且对日常运营不会造成负面影响。
以上所述仅是本发明的示范性实施方式, 而非用于限制本发明的保护范 围, 本发明的保护范围由所附的权利要求确定。

Claims

权利要求书
1. 一种自然表达处理方法, 其中, 包括:
对于来自用户的自然表达进行识别, 得到计算机可处理的某种形式的语 言信息; 以及
将识别得到的语言信息转换为编码形式的标准表达。
2. 根据权利要求 1所述的自然表达处理方法, 其中, 所述标准表达包括 体现用户需求的需求代码。
3. 根据权利要求 2所述的自然表达处理方法, 其中, 所述需求代码用数 字编码表示。
4. 根据权利要求 2所述的自然表达处理方法, 其中, 所述标准表达还包 括进一步体现用户具体需求的需求参数。
5. 根据权利要求 1-4中任意一项所述的自然表达处理方法, 其中, 所述 语言信息是由利用建模工具对语音形式的所述自然表达进行切割和转换得到 的语言信息单元构成的。
6. 根据权利要求 1-4中任意一项所述的自然表达处理方法, 其中, 所述 语言信息是由音素、 字和短语中的一种构成的。
7. 根据权利要求 1-6中任意一项所述的自然表达处理方法, 其中, 基于 所述语言信息与所述标准表达的 MT训练数据表来实现从所述语言信息到所 述标准表达的转换。
8. 根据权利要求 1-7中任意一项所述的自然表达处理方法, 其中, 在识 别所述自然表达的同时得到与该自然表 目关的信息, 并将此信息转换为所 述标准表达的一部分。
9. 一种人工智能机器人的训练方法, 其中, 包括:
建立 MT训练数据表, 该 MT训练数据表包括有: 通过转换自然表达所 得到的计算机可处理的语言信息, 编码化的标准表达以及所述语言信息和所 述标准表达的对应关系;
使得人工智能机器人对于所述 MT训练数据表中已有的所述语言信息的 较, 找出所述语言信息元素的排列组合与所述标准表达元素的排列组合之间 的对应关系。
10.根据权利要求 9所述的人工智能机器人的训练方法, 其中, 所述语 言信息的元素是利用建模工具对语音形式的所述自然表达进行切割和转换得 到的语言信息单元。
11.根据权利要求 9或 10所述的人工智能机器人的训练方法, 其中, 所 述 MT训练数据表的数据可以从外部数据库导入, 也可以通过人工辅助理解 来进行生成和添力口。
12. 一种自然表达处理方法, 其中, 包括:
输入自然表达;
识别所述自然表达, 得到计算机可处理的某种形式的语言信息; 判断是否能够通过机器转换将所述语言信息转换为编码化的标准表达; 如果判断不能通过机器转换得到所需的标准表达, 进行人工转换处理; 以及
输出机器转换或人工转换的标准表达。
13.根据权利要求 12所述的自然表达处理方法, 其中, 所述判断是对于 机器人理解是否成熟的判断, 其中, 对于机器人理解是否成熟的判断, 是基 于对一定时间区间内的机器人理解准确率的评估来进行的。
14. 一种自然表达处理及回应方法, 其中, 包括: 输入自然表达;
识别所述自然表达, 得到计算机可处理的某种形式的语言信息及相关的 表达类型信息;
判断是否能够通过机器转换将所识别的自然表达和表达类型信息转换为 编码化的标准表达;
如果判断不能通过机器转换得到所需的标准表达, 进行人工转换处理; 调用或生成与所述机器转换或者人工转换的标准表达相匹配的标准回 应;
以与所述表达类型信息对应的方式输出所述生成的标准回应。
15.根据权利要求 14所述的自然表达处理及回应方法, 其中, 所述标准 回应是预先存储在数据库中的固定数据, 或者基于变量参数和预先在数据库 中存储的标准回应的基础数据来生成所述标准回应。
16. 一种自然表达处理及回应设备 ( 1 ), 其中, 包括: 对话网关( 11 ), 中央控制器(12 ), MAU工作站(13 ), 机器人(14 ), 表达数据库, 回应数 据库(113 )和回应生成器(114 ), 其中,
对话网关( 11 )接收来自用户( 8 )的自然表达,发送给中央控制器( 12 ) 进行后续处理, 并且将对所述自然表达的回应发送给用户 (8 );
中央控制器(12 )接收来自所述对话网关(11 ) 的自然表达, 并与机器 人 ( 14 ) 以及 MAU工作站( 13 )协同工作, 将该自然表达转换为编码化的 标准表达, 并根据所述标准表达指示回应生成器( 114 )生成与该标准表达对 应的标准回应;
机器人(14 )根据所述中央控制器(12 ) 的指示, 识别所述自然表达, 得到计算机可处理的某种形式的语言信息, 并且利用所述表达数据库将该语 言信息转换为所述标准表达;
MAU工作站( 13 )将经识别的自然表达或者所述来自用户 ( 8 )的自然 表达呈现给外部的 MAU人工座席 ( 9 ), MAU人工座席 ( 9 )通过 MAU工 作站( 13 )输入或者选择标准表达, 然后 MAU工作站( 13 )将该标准表达 发送给中央控制器(12 ); 表达数据库用于存储表 目关数据, 包括: 与所述自然表 目关的所述 语言信息数据, 与所述标准表达相关的标准表达数据, 以及与所述语言信息 和所述标准表达之间的关联相关的数据;
回应数据库(113)存储回应相关数据, 包括供调用的标准回应数据和 / 或用于生成回应的数据;
回应生成器(114)接收中央控制器(12) 的指令, 通过调用和 /或运行 回应数据库(113) 中的数据来生成对所述用户 (8) 的自然表达的回应。
17.根据权利要求 16所述的自然表达处理及回应设备( 1 ), 其中, 中央 制器(12) 更新所述表达数据库和 /或所述回应数据库(113)。
18.根据权利要求 16或 17所述的自然表达处理及回应设备( 1 ), 其中, 所述设备 ( 1 )进一步包括训练器 ( 15 ), 该训练器 ( 15 )用于训练所述机器 人( 14 )将所述自然表达转换为所述标准表达。
19. 根据权利要求 16-18 中任何一项所述的自然表达处理及回应设备 (1), 其中, 所述对话网关(11)进一步包括身份认证器(112), 用于在接 收所述自然表达前识别和验证所述用户 (8)的身份, 其中, 用户身份验证方 法至少包括密语和声纹识别。
20. —种自然表达处理及回应系统, 其中, 包括: 智能应答设备(1), 以及呼叫设备(2), 用户 (8)通过呼叫设备(2)与智能应答设备(1)通信, MAU人工座席 (9)对智能应答设备 (1)进行操作,
其中, 所述智能应答设备( 1 )包括: 对话网关(11), 中央控制器(12), MAU工作站(13), 机器人(14), 表达数据库, 回应数据库(113)和回应 生成器 (114),
对话网关( 11 )从呼叫设备( 2 )接收来自用户 ( 8 ) 的自然表达, 并将 其发送到中央控制器(12);
中央控制器( 12 )指示机器人( 14 )从所述自然表达识别出计算机可处 理的某种形式的语言信息及相关的表达信息, 然后指示机器人 (14)将该语 言信息及相关的表达信息转换为标准表达; 如果机器人(14) 的理解力不够成熟, 而不能完成标准表达的转换, 则 中央控制器( 12 )指示 MAU工作站( 13 )提示 MAU人工座席 ( 9 )进行标 准表达的人工转换, MAU人工座席 (9)将机器人(14)识别的所述语言信 息及相关表达信息转换为标准表达, 并通过 MAU工作站( 13 )输入并发送 到中央控制器(12);
中央控制器(12)基于所述标准表达指示回应生成器(114)调用和 /或 运行回应数据库(113)中的数据来生成对用户 (8)的所述自然表达的回应; 对话网关 (11)将所述回应通过呼叫设备 (2)反馈给用户 (8)。
PCT/CN2014/079945 2013-10-28 2014-06-16 自然表达处理方法、处理及回应方法、设备及系统 WO2015062284A1 (zh)

Priority Applications (11)

Application Number Priority Date Filing Date Title
JP2016546460A JP6182272B2 (ja) 2013-10-28 2014-06-16 自然表現の処理方法、処理及び応答方法、装置、及びシステム
EP14856958.5A EP3062239A4 (en) 2013-10-28 2014-06-16 Natural expression processing method, processing and response method, device, and system
CN201480059550.9A CN105723362B (zh) 2013-10-28 2014-06-16 自然表达处理方法、处理及回应方法、设备及系统
KR1020167014285A KR20160077190A (ko) 2013-10-28 2014-06-16 자연 표현 처리 방법, 처리 및 응답 방법, 디바이스 및 시스템
CA2929018A CA2929018C (en) 2013-10-28 2014-06-16 Natural expression processing method, processing and response method, device and system
US15/032,603 US9760565B2 (en) 2013-10-28 2014-06-16 Natural expression processing method, processing and response method, device, and system
RU2016120612A RU2672176C2 (ru) 2013-10-28 2014-06-16 Способ обработки естественного выражения, способ, устройство и система обработки и ответа
IL245322A IL245322B (en) 2013-10-28 2016-04-27 A method for processing natural expression, a method, facility and system for processing and response
US15/141,576 US9753914B2 (en) 2013-10-28 2016-04-28 Natural expression processing method, processing and response method, device, and system
ZA2016/03638A ZA201603638B (en) 2013-10-28 2016-05-27 Natural expression processing method, processing and response method, device, and system
HK16108004.9A HK1223164A1 (zh) 2013-10-28 2016-08-09 自然表達處理方法、處理及回應方法、設備及系統

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310516340.5A CN103593340B (zh) 2013-10-28 2013-10-28 自然表达信息处理方法、处理及回应方法、设备及系统
CN201310516340.5 2013-10-28

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/032,603 A-371-Of-International US9760565B2 (en) 2013-10-28 2014-06-16 Natural expression processing method, processing and response method, device, and system
US15/141,576 Continuation US9753914B2 (en) 2013-10-28 2016-04-28 Natural expression processing method, processing and response method, device, and system

Publications (1)

Publication Number Publication Date
WO2015062284A1 true WO2015062284A1 (zh) 2015-05-07

Family

ID=50083490

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/079945 WO2015062284A1 (zh) 2013-10-28 2014-06-16 自然表达处理方法、处理及回应方法、设备及系统

Country Status (11)

Country Link
US (2) US9760565B2 (zh)
EP (1) EP3062239A4 (zh)
JP (1) JP6182272B2 (zh)
KR (1) KR20160077190A (zh)
CN (2) CN103593340B (zh)
CA (2) CA2929018C (zh)
HK (1) HK1223164A1 (zh)
IL (1) IL245322B (zh)
RU (1) RU2672176C2 (zh)
WO (1) WO2015062284A1 (zh)
ZA (1) ZA201603638B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721470A (zh) * 2016-02-19 2016-06-29 广州盛华信息有限公司 一种实现呼叫中心可视化接入的方法
WO2019153533A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 动态路由控制方法、装置、计算机设备及存储介质
JP2019536135A (ja) * 2017-01-25 2019-12-12 グーグル エルエルシー 言語モデルを用いたメッセージ内受信画像に対する自動提案応答

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593340B (zh) 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及系统
US9535904B2 (en) * 2014-03-26 2017-01-03 Microsoft Technology Licensing, Llc Temporal translation grammar for language translation
AU2015305397A1 (en) * 2014-08-21 2017-03-16 Jobu Productions Lexical dialect analysis system
CN104486516B (zh) * 2014-11-13 2018-01-09 国网浙江省电力公司电力科学研究院 基于95598大话务的ivr智能系统的机器人语音服务方法
CN105094315B (zh) * 2015-06-25 2018-03-06 百度在线网络技术(北京)有限公司 基于人工智能的人机智能聊天的方法和装置
CN106372091A (zh) * 2015-07-23 2017-02-01 中兴通讯股份有限公司 基于信息识别提供解决方案的方法及装置
US9682481B2 (en) * 2015-10-26 2017-06-20 X Development Llc Communication of information regarding a robot using an optical identifier
WO2017082447A1 (ko) * 2015-11-11 2017-05-18 주식회사 엠글리쉬 외국어 독음 및 표시장치와 그 방법, 및 이를 이용한 외국어 리듬 동작 감지 센서 기반의 운동학습장치와 운동학습방법, 이를 기록한 전자매체 및 학습교재
CN107015983A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种用于智能问答中提供知识信息的方法与设备
US10769517B2 (en) * 2016-03-05 2020-09-08 Fujitsu Limited Neural network analysis
CN105808501A (zh) * 2016-03-09 2016-07-27 北京众星智联科技有限责任公司 一种人工智能学习的实现
US10394964B2 (en) * 2016-04-04 2019-08-27 Oslabs Pte. Ltd. Gesture based system for translation and transliteration of input text and a method thereof
CN105975622B (zh) * 2016-05-28 2020-12-29 福州云之智网络科技有限公司 多角色智能聊天的方法及系统
US10929861B2 (en) * 2016-06-23 2021-02-23 Tata Consultancy Services Limited Method and system for measuring a customer experience in an organization
CN106297782A (zh) * 2016-07-28 2017-01-04 北京智能管家科技有限公司 一种人机交互方法及系统
CN106409283B (zh) * 2016-08-31 2020-01-10 上海交通大学 基于音频的人机混合交互系统及方法
US10984034B1 (en) * 2016-10-05 2021-04-20 Cyrano.ai, Inc. Dialogue management system with hierarchical classification and progression
CN108073804B (zh) * 2016-11-14 2022-11-29 百度在线网络技术(北京)有限公司 一种风险识别方法和装置
US10909980B2 (en) * 2017-02-27 2021-02-02 SKAEL, Inc. Machine-learning digital assistants
KR102367778B1 (ko) * 2017-03-15 2022-02-25 삼성전자주식회사 언어 정보를 처리하기 위한 방법 및 그 전자 장치
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
TWI712975B (zh) * 2017-06-29 2020-12-11 永豐商業銀行股份有限公司 一種基於智慧語音人機互動設備之金融服務系統
JP2019049604A (ja) * 2017-09-08 2019-03-28 国立研究開発法人情報通信研究機構 命令文推定システムおよび命令文推定方法
CN109587358A (zh) * 2017-09-29 2019-04-05 吴杰 人工智能客服转人工客服呼叫方法
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置
US10762113B2 (en) * 2018-01-31 2020-09-01 Cisco Technology, Inc. Conversational knowledge graph powered virtual assistant for application performance management
JP7078429B2 (ja) * 2018-03-20 2022-05-31 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
US11568863B1 (en) * 2018-03-23 2023-01-31 Amazon Technologies, Inc. Skill shortlister for natural language processing
US20190295082A1 (en) * 2018-03-23 2019-09-26 Mastercard International Incorporated Message Based Payment Card System, Apparatuses, and Method Thereof
US10929601B1 (en) * 2018-03-23 2021-02-23 Amazon Technologies, Inc. Question answering for a multi-modal system
US10956462B1 (en) * 2018-06-21 2021-03-23 Amazon Technologies, Inc. System answering of user inputs
EP3613037B1 (en) * 2018-06-27 2020-10-21 Google LLC Rendering responses to a spoken utterance of a user utilizing a local text-response map
CN108806688A (zh) * 2018-07-16 2018-11-13 深圳Tcl数字技术有限公司 智能电视的语音控制方法、智能电视、系统及存储介质
US10726058B2 (en) * 2018-07-31 2020-07-28 Market Advantage, Inc. System, computer program product and method for generating embeddings of textual and quantitative data
CN109397287B (zh) * 2018-10-12 2021-07-27 珠海格力智能装备有限公司 机器人编码方法及装置、机器人、存储介质、处理器
CN109215654A (zh) * 2018-10-22 2019-01-15 北京智合大方科技有限公司 实时语音识别和自然语言处理的移动端智能客服辅助系统
CN109582971B (zh) * 2018-12-20 2022-11-25 广东小天才科技有限公司 一种基于句法分析的批改方法及批改系统
IT201900000526A1 (it) * 2019-01-11 2020-07-11 Userbot S R L Sistema di intelligenza artificiale per processi aziendali
CN110059168A (zh) * 2019-01-23 2019-07-26 艾肯特公司 对基于自然智能的人机交互系统进行训练的方法
CN110019688A (zh) * 2019-01-23 2019-07-16 艾肯特公司 对机器人进行训练的方法
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
WO2020151652A1 (zh) * 2019-01-23 2020-07-30 艾肯特公司 基于自然智能的自然表达处理方法、回应方法、设备及系统,对机器人进行训练的方法,人机交互系统,对基于自然智能的人机交互系统进行训练的方法,端到端控制方法和控制系统
CN110008317A (zh) * 2019-01-23 2019-07-12 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110059166A (zh) * 2019-01-23 2019-07-26 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110059167A (zh) * 2019-01-23 2019-07-26 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN114938360B (zh) * 2019-04-12 2023-04-18 腾讯科技(深圳)有限公司 一种基于即时通讯应用的数据处理方法和装置
CN110035187A (zh) * 2019-04-16 2019-07-19 浙江百应科技有限公司 一种在电话中实现ai和人工坐席无缝切换的方法
CN112312181A (zh) * 2019-07-26 2021-02-02 深圳Tcl新技术有限公司 一种智能电视语音识别方法、系统及可读存储介质
CN110428811B (zh) * 2019-09-17 2021-09-07 北京声智科技有限公司 一种数据处理方法、装置及电子设备
CN110826345B (zh) * 2019-11-14 2023-09-05 北京香侬慧语科技有限责任公司 一种机器翻译方法和装置
CN111078776A (zh) * 2019-12-10 2020-04-28 北京明略软件系统有限公司 数据表的标准化方法、装置、设备及存储介质
TWI751504B (zh) * 2020-02-27 2022-01-01 中華電信股份有限公司 人機協作對話系統與方法
CN111540353B (zh) * 2020-04-16 2022-11-15 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
KR102340946B1 (ko) * 2020-07-08 2021-12-20 황호진 렌털 상품을 제공하는 판매자의 쇼핑몰 시스템 및 그 방법
KR20220006426A (ko) * 2020-07-08 2022-01-17 황호진 해외 직접 구매와 렌털 상품을 제공하는 판매자의 쇼핑몰 시스템 및 그 방법
CN112488133B (zh) * 2020-12-18 2022-06-14 贵州大学 一种视频/图片-文本跨模态检索方法
CN113099306B (zh) * 2021-03-23 2022-11-22 北京达佳互联信息技术有限公司 消息处理方法、装置、设备、服务器、介质和产品
US11875132B2 (en) * 2021-05-13 2024-01-16 Intrado Corporation Validation of revised IVR prompt translation
US11861322B2 (en) 2021-05-13 2024-01-02 West Technology Group, Llc Automated management of revised IVR prompt translations
US20230008868A1 (en) * 2021-07-08 2023-01-12 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program
CN113672206B (zh) * 2021-09-02 2024-04-02 北京航空航天大学 一种x语言混合建模平台及建模方法
CN115329785B (zh) * 2022-10-15 2023-01-20 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN117506926A (zh) * 2023-12-19 2024-02-06 广州富唯智能科技有限公司 一种基于大工艺模型的机器人设备自动控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020178005A1 (en) * 2001-04-18 2002-11-28 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
CN1489086A (zh) * 2002-10-10 2004-04-14 莎 刘 一种语义约定全文翻译系统和方法
US20070299824A1 (en) * 2006-06-27 2007-12-27 International Business Machines Corporation Hybrid approach for query recommendation in conversation systems
CN103593340A (zh) * 2013-10-28 2014-02-19 茵鲁维夫有限公司 自然表达信息处理方法、处理及回应方法、设备及系统

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201175A (ja) * 1982-05-20 1983-11-22 Kokusai Denshin Denwa Co Ltd <Kdd> 機械翻訳方式
US4849898A (en) * 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
JPH03129469A (ja) * 1989-10-14 1991-06-03 Canon Inc 自然言語処理装置
US5338976A (en) * 1991-06-20 1994-08-16 Ricoh Company, Ltd. Interactive language conversion system
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5369575A (en) * 1992-05-15 1994-11-29 International Business Machines Corporation Constrained natural language interface for a computer system
CA2141221A1 (en) * 1992-09-04 1994-03-17 Jaime G. Carbonell Integrated authoring and translation system
JPH0744638A (ja) * 1993-07-29 1995-02-14 Nec Corp 表データ検索装置
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5659765A (en) * 1994-03-15 1997-08-19 Toppan Printing Co., Ltd. Machine translation system
JP3350293B2 (ja) * 1994-08-09 2002-11-25 株式会社東芝 対話処理装置及び対話処理方法
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5909678A (en) * 1996-09-13 1999-06-01 International Business Machines Corporation Computer systems, method and program for constructing statements by dragging and dropping iconic representations of subcomponent statements onto a phrase template
US6026410A (en) * 1997-02-10 2000-02-15 Actioneer, Inc. Information organization and collaboration tool for processing notes and action requests in computer systems
CA2391985A1 (en) * 1999-11-25 2001-05-31 Yeong Kuang Oon A unitary language for problem solving resources for knowledge based services
JP2002108859A (ja) * 2000-09-29 2002-04-12 Nippon Hoso Kyokai <Nhk> 対訳表現自動抽出装置および記録媒体
JP2005241971A (ja) * 2004-02-26 2005-09-08 Seiko Epson Corp プロジェクタシステム、マイク装置、プロジェクタ制御装置およびプロジェクタ
JP2006024114A (ja) * 2004-07-09 2006-01-26 Advanced Telecommunication Research Institute International 機械翻訳装置および機械翻訳コンピュータプログラム
US7844465B2 (en) 2004-11-30 2010-11-30 Scansoft, Inc. Random confirmation in speech based systems
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US8117196B2 (en) 2006-01-23 2012-02-14 Chacha Search, Inc. Search tool providing optional use of human search guides
US8266130B2 (en) 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
US7962466B2 (en) 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
US8280921B2 (en) 2006-07-18 2012-10-02 Chacha Search, Inc. Anonymous search system using human searchers
US7873532B2 (en) 2006-07-19 2011-01-18 Chacha Search, Inc. Method, system, and computer readable medium useful in managing a computer-based system for servicing user initiated tasks
JP2009545076A (ja) 2006-07-24 2009-12-17 チャチャ サーチ,インク. 情報検索システムにおけるポッドキャスティング及びビデオトレーニングの為の方法、システム及びコンピュータ読込可能ストレージ
US8239461B2 (en) 2007-06-28 2012-08-07 Chacha Search, Inc. Method and system for accessing search services via messaging services
WO2009067696A1 (en) 2007-11-21 2009-05-28 Chacha Search, Inc. Method and system for improving utilization of human searchers
US8336035B2 (en) * 2008-12-16 2012-12-18 Microsoft Corporation Customizable dynamic language expression interpreter
US8000454B1 (en) 2010-09-10 2011-08-16 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
AU2012207503A1 (en) 2011-01-17 2013-09-05 Chacha Search, Inc. Method and system of selecting responders
US9842299B2 (en) 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
JP5590431B1 (ja) * 2012-12-27 2014-09-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報通信方法
US8818795B1 (en) * 2013-03-14 2014-08-26 Yahoo! Inc. Method and system for using natural language techniques to process inputs
US20150074524A1 (en) 2013-09-10 2015-03-12 Lenovo (Singapore) Pte. Ltd. Management of virtual assistant action items

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020178005A1 (en) * 2001-04-18 2002-11-28 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
CN1489086A (zh) * 2002-10-10 2004-04-14 莎 刘 一种语义约定全文翻译系统和方法
US20070299824A1 (en) * 2006-06-27 2007-12-27 International Business Machines Corporation Hybrid approach for query recommendation in conversation systems
CN103593340A (zh) * 2013-10-28 2014-02-19 茵鲁维夫有限公司 自然表达信息处理方法、处理及回应方法、设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3062239A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721470A (zh) * 2016-02-19 2016-06-29 广州盛华信息有限公司 一种实现呼叫中心可视化接入的方法
JP2019536135A (ja) * 2017-01-25 2019-12-12 グーグル エルエルシー 言語モデルを用いたメッセージ内受信画像に対する自動提案応答
WO2019153533A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 动态路由控制方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
ZA201603638B (en) 2017-09-27
US9753914B2 (en) 2017-09-05
US9760565B2 (en) 2017-09-12
EP3062239A1 (en) 2016-08-31
RU2016120612A (ru) 2017-12-05
RU2672176C2 (ru) 2018-11-12
CN105723362B (zh) 2018-10-02
HK1223164A1 (zh) 2017-07-21
CN103593340A (zh) 2014-02-19
CA2929018A1 (en) 2015-05-07
CA2929018C (en) 2018-08-28
KR20160077190A (ko) 2016-07-01
IL245322B (en) 2018-12-31
US20160275075A1 (en) 2016-09-22
IL245322A0 (en) 2016-06-30
CN105723362A (zh) 2016-06-29
JP2017503282A (ja) 2017-01-26
CN103593340B (zh) 2017-08-29
CA3011397A1 (en) 2015-05-07
JP6182272B2 (ja) 2017-08-16
EP3062239A4 (en) 2017-11-22
US20160253434A1 (en) 2016-09-01

Similar Documents

Publication Publication Date Title
WO2015062284A1 (zh) 自然表达处理方法、处理及回应方法、设备及系统
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
CN110019688A (zh) 对机器人进行训练的方法
CN107315742A (zh) 具有人机对话功能的拟人化口语翻译方法及系统
CN112214591B (zh) 一种对话预测的方法及装置
KR20200092499A (ko) 대화형 인공지능 기술을 이용한 상담 지원 방법 및 그 장치
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN110610705A (zh) 一种基于人工智能的语音交互提示器
CN110059166A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN110046232A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN115643341A (zh) 人工智能客服应答系统
CN114064865A (zh) 在远程交互中检测词汇技能级别并校正未对准
CN110059168A (zh) 对基于自然智能的人机交互系统进行训练的方法
US20190012313A1 (en) Speech converter
CN110059167A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN110008317A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
JP2673831B2 (ja) 会話マナー教育システム
RU2755781C1 (ru) Интеллектуальное рабочее место оператора и способ его взаимодействия для осуществления интерактивной поддержки сессии обслуживания клиента
WO2021159734A1 (zh) 一种数据处理方法、装置、设备及介质
US20050281395A1 (en) Methods and apparatus for an interactive audio learning system
WO2023276088A1 (ja) 対話装置、対話制御方法及び対話プログラム
WO2020151652A1 (zh) 基于自然智能的自然表达处理方法、回应方法、设备及系统,对机器人进行训练的方法,人机交互系统,对基于自然智能的人机交互系统进行训练的方法,端到端控制方法和控制系统
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14856958

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016546460

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15032603

Country of ref document: US

Ref document number: 245322

Country of ref document: IL

ENP Entry into the national phase

Ref document number: 2929018

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20167014285

Country of ref document: KR

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2014856958

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014856958

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016120612

Country of ref document: RU

Kind code of ref document: A