CN100539728C

CN100539728C - 音频输出装置、文档阅读方法和移动终端

Info

Publication number: CN100539728C
Application number: CN200610089941.2A
Authority: CN
Inventors: 坪井和弘
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2005-05-30
Filing date: 2006-05-29
Publication date: 2009-09-09
Anticipated expiration: 2026-05-29
Also published as: GB0610408D0; GB2427109B; US20060271371A1; FR2887735B1; US8065157B2; CN1874574A; FR2887735A1; GB2427109A

Abstract

一种音频输出装置包括：输出音频的音频输出单元；存储单元，存储预定单词和与单词相关联的类型；控制器，在利用语音合成从音频输出单元将电子文档输出为音频时，当电子文档包含存储单元中存储的单词时，根据与所述单词相关联的类型控制从音频输出单元输出的音频。

Description

音频输出装置、文档阅读方法和移动终端

技术领域

本发明涉及一种音频输出装置以及一种文档阅读方法。

本申请要求2005年5月30日提交的日本专利申请No.2005-158213的国外优先权，该申请的内容整体结合于此用作参考。

背景技术

近来，在诸如移动电话和个人计算机(PC)之类的信息通信终端(音频输出装置)中，注意力集中在用于分析电子文档(例如，电子邮件)中的字符串并且使用语音合成技术来将电子文档中的文本转换为语音的功能。包括这种功能的信息通信终端使得用户能够利用声音来检查诸如电子邮件之类的电子文档(消息)的内容。这增加了信息通信终端的便利性，例如这是由于使用户能够在移动电话或PC监视器上执行另一操作的同时，通过声音的方式检查诸如电子邮件之类的电子文档的内容。

然而，使用传统语音合成技术的文本到语音功能输出单调的声音，而无论电子文档的内容如何。这种声调的缺乏使得用户听起来不舒服。为了解决此问题，日本未审专利申请第一公开No.2004-289577公开了一种技术，利用这种技术，当从发送方移动通信终端(例如，移动电话)向接收方移动通信终端发送电子邮件时，根据其内容向电子邮件附加情感标识信息。

然而，前述技术具有这样的缺点：向电子邮件附加情感标识信息增加了电子邮件的数据大小，并且由于电子邮件的数据大小增加，可能对用户收取更多的电子邮件使用费用。此外，当向电子邮件的报头附加情感标识信息时，必须修改邮件服务系统以适应报头的这种改变，这需要相当大的网络修改。

另一问题在于：如果发送方移动通信终端不具备用于附加情感标识信息的功能，则接收方移动通信终端不能确定任何情感。

考虑到上述问题做出了本发明，并且本发明的目的是实现一种音频输出装置以及一种文档阅读方法，包括具有高度传统情感表达的文本到语音功能。

发明内容

为了实现上述目的，本发明提供了一种音频输出装置，包括：输出音频的音频输出单元；存储单元，存储预定单词和与该单词相关联的情感类型；以及控制器，在利用语音合成从所述音频输出单元将电子文档输出为音频时，当所述电子文档包含所述存储单元中存储的单词时，根据与所述单词相关联的所述情感类型控制从所述音频输出单元输出的音频；所述控制器，在控制所述音频输出时，根据所述情感类型来控制音频的声音质量。

本发明提供的另一种音频输出装置，包括：输出音频的音频输出单元；存储单元，存储预定单词和与该单词相关联的类型；以及控制器，在利用语音合成从所述音频输出单元将电子文档输出为音频时，当所述电子文档包含所述存储单元中存储的单词时，根据与所述单词相关联的所述类型控制从所述音频输出单元输出的音频；所述控制器，在控制所述音频输出时，根据作为所述类型的与单词相关联的紧急等级来控制音频的阅读速度。

此外，本发明还提供与上述音频输出装置对应的文档阅读方法，以及包含上述音频输出装置的移动终端。

附图说明

图1是图示了根据本发明实施例的移动通信终端的配置的方框图；

图2是根据本发明实施例的情感类型确定表的第一示例；

图3是根据本发明实施例的情感类型确定表的第二示例；

图4是根据本发明实施例的情感类型确定表的第三示例；

图5是根据本发明实施例的紧急等级确定表的示例；

图6是由根据本发明实施例的移动通信终端执行的电子邮件的文本到语音转换处理的流程图；以及

图7是根据本发明实施例的情感类型确定方法及紧急等级确定方法的示例。

具体实施方式

后文将参考附图描述本发明的实施例。

作为音频输出装置的示例，该实施例的解释描述了一种移动通信终端，例如移动电话等，其具备用于发送和接收电子邮件(消息)的功能。图1是图示了根据本发明实施例的移动通信终端的功能配置的方框图。如图1所示，该移动通信终端包括无线通信单元1、键输入单元2、显示单元3、存储单元4、控制器5、以及音频输出单元9。控制器5包括情感类型确定单元6、声音质量设置单元7、以及语音合成器8作为其功能配置元件。

无线通信单元1由控制器5控制，并且使用诸如码分多址(CDMA)之类的预定通信技术，以通过与移动通信基站的无线通信来交换语音信号和数据信号(例如，电子邮件)。键输入单元2包括拨号键按钮、功能键按钮、电源键按钮等，并且向控制器5输出这些按钮的操作状态作为操作信号。显示单元3例如包括液晶显示装置，其基于从控制器5输入的显示信号，显示各种类型的消息、电话号码、图像等。

存储单元4预先存储控制器5所执行的控制程序。另外，存储单元4被配置为在控制器5的控制之下，顺序存储各种类型的数据，例如电话号码和电子邮件地址，并且响应于来自控制器5的请求，向控制器5输出这些数据。存储单元4还存储情感类型确定表，例如图2至4所示的表。如图2至4所示，情感类型确定表为每一情感类型(友爱、欣喜、安慰、不悦、失望/不安、困苦、失望/烦恼、重要和麻烦)列出类别，其中为每一类别存储了单词和加权常数。存储单元4还存储紧急等级确定表，其存储涉及紧急等级的类别，其中为每一类别定义了单词和加权常数，如图5所示。

控制器5被配置为根据存储单元4中预先存储的预定控制程序、从键输入单元2输入的操作信号、无线通信单元1的通信状态等来控制移动通信终端的总体操作。作为基于控制程序的特征控制处理，控制器5使用情感类型确定单元6和语音合成器8来处理无线通信单元1接收到的电子邮件的正文的文本数据。

情感类型确定单元6将电子邮件的正文的文本数据与情感类型确定表相比较，从文本数据中提取与每一情感类型相对应的单词，确定向每一单词分配的加权常数的总和，根据总和确定情感类型，并且向声音质量设置单元7输出指示情感类型的情感类型信号。情感类型确定单元6将文本数据与存储单元4中存储的紧急等级确定表相比较，提取相应的单词，根据分配给单词的加权常数的总和来确定紧急等级，并且向声音质量设置单元7输出指示紧急等级的紧急等级信号。稍后将详细解释情感类型确定单元6的此处理操作。

基于从情感类型确定单元6发送的情感类型信号(即，情感类型)，声音质量设置单元7设置用于阅读电子邮件的声音质量(音调、音量和声调)，基于紧急等级信号(即，紧急等级)设置语音的阅读速度，并且向语音合成器8输出涉及声音质量的信息作为语音设置信息。

基于声音质量信息，语音合成器8将电子邮件的文本数据转换为合成语音数据，并且将代表该合成语音数据的音频信号输出到音频输出单元9。即，对合成语音数据进行合成，从而根据情感类型确定单元6所确定的紧急等级和情感类型来阅读电子邮件。音频输出单元9例如包括扬声器，其将从语音合成器9输入的音频信号转换为声音并且将其输出到外部。

接着，将使用图6的流程图来解释如上配置的移动通信终端中电子邮件的文本到语音转换处理。

在步骤S1中，移动通信终端(具体地，无线通信单元1)通过移动通信基站接收到来自另一移动通信终端的电子邮件。在该示例中，接收到的电子邮件(接收邮件)包括文本数据“在如此长的艰苦时期之后，我们终于迎来了有趣的约会。我为你准备了礼物，快点来吧。”。除了电子邮件的正文之外，文本数据也可包括电子邮件的标题。

在图6的步骤S2中，控制器5中的情感类型确定单元6根据存储单元4中存储的情感类型确定表和紧急等级确定表，从接收邮件的文本数据中提取与每一情感类型和紧急等级相对应的单词(在该情形中，提取了“艰苦”、“有趣”、“约会”、“礼物”和“快点”)。在步骤S3中，情感类型确定单元6确定分配给单词的加权常数的总和作为总和(计数值)，并且确定情感类型和紧急等级。例如，在图2中，单词“有趣”对应于情感类型“友爱”的类别“喜爱”，并且“友爱”的加权常数是“20”；“有趣”也对应于与情感类型“欣喜”有关的类别“快乐”，并且加权常数是“70”。如图5所示，单词“快点”对应于紧急等级类别“急迫”，并且其加权常数是“1”。

情感类型确定单元6执行类似处理，以针对每个其他单词填写图7的表，并由此计算与情感类型和紧急等级相关的加权常数的总和。如图7所示，因为在该实施例中加权常数的最大总和与情感类型“欣喜”相关，所以情感类型确定单元6确定“欣喜”作为接收邮件的情感类型，并且确定“1”作为紧急等级。

情感类型确定单元6然后在步骤S4中确定是否可以确定情感类型。如果步骤S2中计算的加权常数的最大总和是已知的，则可以在步骤S3中确定情感类型。因此，在步骤S4中的确定为“是”，并且情感类型确定单元6向声音质量设置单元7输出代表“欣喜”的情感类型信号作为接收邮件的情感类型以及代表“1”的紧急等级信号作为其紧急等级。在步骤S5中，声音质量设置单元7根据情感类型“欣喜”设置语音的音调、音量和声调，根据紧急等级“1”设置阅读速度，并且向语音合成器8输出该信息作为声音质量设置信息。代表紧急等级的值越大，阅读速度就越快；值越小，阅读速度越慢。

在步骤S6中，基于声音质量设置信息，语音合成器8将接收邮件的文本数据转换为合成语音数据，并且将其作为音频信号输出到音频输出单元9。音频输出单元9将音频信号转换为声音，并将其输出到外部。这使得能够将接收邮件阅读为带情感的语音。

步骤S3中存在在总加权常数中不能确定最大值的情形；即，存在多个情感类型，它们具有总和相等且与其他类别相比总和最大的两个或多个类别。因为难以在所有情形中确定接收邮件的情感类型，所以情感类型确定单元6在步骤S4中确定不能对这种接收邮件确定情感类型，并且前进到步骤S7。

在步骤S7中，情感类型确定单元6检查与接收邮件相对应的发送历史是否存储在存储单元4中。即，在步骤S7中，确定接收邮件是否是对从该移动通信终端发送到另一移动通信终端的电子邮件(发送邮件)的回复邮件。

如果步骤S7中做出的确定为“否”(即，如果接收邮件不是对从该移动通信终端发送的发送邮件的回复邮件)，则在步骤S8中，情感类型确定单元6向声音质量设置单元7输出指示不能确定情感类型的情感类型信号以及指示接收邮件的紧急等级的紧急等级信号。

当情感类型确定单元6确定不能为接收邮件确定情感类型时，在步骤S9中，声音质量设置单元7选择不表达情感的标准设置(缺省设置)作为语音设置信息，并且将其输出到语音合成器8。该缺省设置仅使用与情感类型相关的设置作为标准设置，其中根据接收邮件的紧急等级来设置紧急等级。在步骤S6中，基于缺省设置，语音合成器8将接收邮件的文本数据转换为合成语音数据，并将其作为音频信号输出到音频输出单元9。音频输出单元9将音频信号转换为声音，并将其输出到外部。因此，当确定不能为接收邮件确定情感类型并且接收邮件不是回复邮件时，不带情感表达来执行文本到语音转换。

另一方面，当步骤S7中做出的确定为“是”时，即，当接收邮件是对从该移动通信终端发送的邮件的回复邮件时，例如当接收邮件具有与发送邮件的历史中所保留的邮件相同的邮件标题时，在步骤S10中，情感类型确定单元6获得存储单元4的发送邮件文件夹中存储的发送邮件的文本数据作为相关消息，并且在步骤S11中，基于其文本数据确定发送邮件的情感类型和紧急等级。确定情感类型和紧急等级的处理与步骤S3中的处理相同，并且不进一步解释。在步骤S12中，情感类型确定单元6确定是否可以为发送邮件确定情感类型。

如果步骤S12中做出的确定为“是”，即，确定可以为发送邮件确定情感类型，则情感类型确定单元6向声音质量设置单元7输出指示发送邮件的情感类型的情感类型信号以及指示发送邮件的紧急等级的紧急等级信号。在步骤S13中，声音质量设置单元7根据发送邮件的情感类型设置音调、音量和声调，根据发送邮件的紧急等级设置阅读速度，并且将该信息作为声音质量设置信息输出到语音合成器8。

在步骤S6中，基于声音质量设置信息，语音合成器8将接收邮件的文本数据转换为合成语音数据，并将其作为音频信号输出到音频输出单元9，音频输出单元9将音频信号转换为声音并将其输出到外部。这使得能够将接收邮件阅读为带情感的语音。因此，即使不能为接收邮件确定情感类型，如果接收邮件是对从该移动通信终端发送的发送邮件的回复邮件，因为作为相关消息的发送邮件和回复邮件很有可能具有相同的情感类型，所以通过检查发送邮件的情感类型，可以向接收邮件赋予情感表达，并且可以执行文本到语音转换。

另一方面，当步骤S12中做出的确定为“否”时，即，如果确定不能为发送邮件确定情感类型，则情感类型确定单元6向声音质量设置单元7输出指示不能确定情感类型的情感类型信号以及指示接收邮件(回复邮件)的紧急等级的紧急等级信号。

当以这种方式确定不能为发送邮件确定情感类型时，在步骤S14中，声音质量设置单元7选择不表达情感的标准设置(缺省设置)作为语音设置信息，并将其输出到语音合成器8。该缺省设置仅使用与情感类型相关的设置作为标准设置，其中根据接收邮件的紧急等级设置紧急等级。在步骤S6中，基于缺省设置，语音合成器8将接收邮件的文本数据转换为合成语音数据，并将其作为音频信号输出到音频输出单元9，音频输出单元9将音频信号转换为声音并将其输出到外部。因此，当确定接收邮件为回复邮件并且不能为回复邮件和发送邮件确定情感类型时，不带情感表达来执行文本到语音转换。

在步骤S11至S14中，可以根据发送邮件的发送时间与对发送邮件进行回复而发送的回复邮件的接收时间之间的时间间隔来确定紧急等级，并且可以根据该紧急等级来改变阅读速度。例如，当所述时间间隔较长时，确定较低的紧急等级，并且将阅读速度设置为慢速度。相反，当所述时间间隔较短时，确定高紧急等级，并且将阅读速度设置为快速度。

如上面根据该实施例所述，因为接收电子邮件的信息通信终端(音频输出装置)确定该接收邮件的情感类型，所以可以执行带情感的文本到语音转换，而不需要向发送信息的通信终端提供用于附加情感类型信息的功能。另外，不需要每次在用户发送电子邮件时输入情感类型信息。此外，因为不使用电子邮件的报头，所以不必改变邮件服务系统，由此可以减小用户的邮件使用成本。根据该实施例，可以使包括能够表达情感的文本到语音功能的移动通信终端更方便。

本发明不限于上述实施例，可以想到如下修改。

虽然在前述实施例中，对与从电子邮件(电子文档)中提取的每个单词相关联的情感类型的加权常数进行计数，并且基于每一情感类型的加权常数的总和(计数值)的最大值来确定电子邮件的情感类型，这不应视为限制本发明。如下情形是可以接受的：针对每一情感类型，对电子邮件(电子文档)中使用的单词的出现率进行计数，并且根据具有最高计数值的情感类型来确定电子邮件的情感类型。

虽然前述实施例体现在移动通信终端中，但是这不应视为限制了本发明。本发明的电子邮件阅读单元也可以应用于诸如个人计算机之类使用通信单元发送和接收电子邮件的信息通信终端。

虽然使用情感类型确定表和紧急等级确定表(例如图2至4及图5中的表)来描述前述实施例，但是这些仅是示例，并且没有限制本发明。当然可以设置与之相对应的其他情感类型和其他单词等。

虽然在前述实施例中，基于电子邮件的情感类型和紧急等级来执行文本到语音转换，但是还可以在显示单元3上显示与情感类型和紧急等级相对应的字符、动画等。

虽然使用电子邮件的语音合成的示例来描述前述实施例，但是本发明不局限于此，并且可以应用于具有文本数据的任何其他电子文档。除了电子邮件之外，本发明可以类似地应用于使用短消息服务、一键通(PTT)技术等通过在线聊天等发送和接收的消息以及在因特网上浏览网站等时发送和接收的消息。

虽然上面描述并图示了本发明的优选实施例，但是应该理解，这些是本发明的示例，而不应视为限制。在不脱离本发明的精神或范围的前提下，可以做出添加、省略、替换和其他修改。因此，本发明不应视为受限于前面的描述，而是仅由所附权利要求的范围限定。

Claims

1.一种音频输出装置，包括：

输出音频的音频输出单元；

存储单元，存储预定单词和与该单词相关联的情感类型；以及

控制器，在利用语音合成从所述音频输出单元将电子文档输出为音频时，当所述电子文档包含所述存储单元中存储的单词时，根据与所述单词相关联的所述情感类型控制从所述音频输出单元输出的音频；

所述控制器，在控制所述音频输出时，根据所述情感类型来控制音频的声音质量。

2.根据权利要求1所述的音频输出装置，其中

所述存储单元存储与不同所述情感类型相关联的多个单词，并且

当所述电子文档包含多个与不同情感类型相关联的单词时，所述控制器针对每一所述情感类型确定所述电子文档中使用的单词的出现率，并且根据具有最大出现率的情感类型来控制从所述音频输出单元输出的音频。

3.根据权利要求2所述的音频输出装置，其中，在确定出现率时，当存在多个具有最大出现率的情感类型时，所述控制器输出标准音频输出。

4.根据权利要求1所述的音频输出装置，其中

所述存储单元存储每一单词的所述情感类型的加权常数，并且

当所述电子文档包含多个与不同情感类型相关联的单词时，所述控制器针对每一所述情感类型计算所述电子文档中使用的单词的所述情感类型的加权常数的总和，并且根据具有最大总和的情感类型来控制从所述音频输出单元输出的音频。

5.根据权利要求1所述的音频输出装置，其中

所述存储单元进一步与所述单词相关联存储紧急等级，并且

所述控制器根据所述紧急等级，控制音频输出的阅读速度。

6.根据权利要求1所述的音频输出装置，其中还包括连接到通信网络并发送和接收消息的通信单元，

其中，当以音频合成来音频输出由所述通信单元所发送接收的消息中的第一消息所构成的所述电子文档时，所述控制器根据与该第一消息相关的第二消息中所使用的单词所对应的情感类型来控制从所述音频输出单元输出的音频。

7.根据权利要求1所述的音频输出装置，其中还包括连接到通信网络并发送和接收消息的通信单元，

其中，当以音频合成来音频输出由所述通信单元所发送接收的消息中的第一消息所构成的所述电子文档时，如果第一消息和第二消息通过发送/接收关系互相相关，所述控制器根据生成第一消息的时间与生成第二消息的时间之间的时间间隔来控制音频输出。

8.根据权利要求1所述的音频输出装置，其中，

在控制音频的声音质量时，控制器至少控制声音的音调、音量和声调之一。

9.根据权利要求1所述的音频输出装置，其中还包括

显示电子文档的显示单元。

10.一种音频输出装置中的文档阅读方法，其中音频输出装置包括输出音频的音频输出单元，所述方法包括步骤：

预先存储预定单词以及与该单词相关联的情感类型；以及

利用语音合成从所述音频输出单元以音频输出电子文档；其中，当所述电子文档包含在存储步骤中存储的单词时，根据与所述单词相关联的所述情感类型来控制从所述音频输出单元输出的音频；

在控制所述音频输出时，根据所述情感类型来控制音频的声音质量。

11.一种移动终端，包括：

通信单元，连接到通信网络，并且发送和/或接收电子文档的数据；

语音合成器，用于将所述通信单元所发送和/或接收的所述电子文档中的文本转换为语音；

音频输出单元，输出由语音合成器转换的语音的音频；

控制器，在从所述音频输出单元将所述电子文档输出为音频时，当所述电子文档包含在所述存储单元中存储的所述单词时，根据与所述单词相关联的所述情感类型控制从所述音频输出单元输出的音频；

12.根据权利要求11所述的移动终端，其中

所述存储单元进一步与单词相关联存储紧急等级，并且

所述控制器根据所述紧急等级，控制音频输出的阅读速度。

13.根据权利要求11所述的移动终端，其中还包括

显示电子文档的显示单元。

14.一种音频输出装置，包括：

输出音频的音频输出单元；

存储单元，存储预定单词和与该单词相关联的类型；以及

控制器，在利用语音合成从所述音频输出单元将电子文档输出为音频时，当所述电子文档包含所述存储单元中存储的单词时，根据与所述单词相关联的所述类型控制从所述音频输出单元输出的音频；

所述控制器，在控制所述音频输出时，根据作为所述类型的与单词相关联的紧急等级来控制音频的阅读速度。