CN1134210A

CN1134210A - 配有文字的视听制品；在视听制品中将语音和文字序列合理地结合的方法以及用于线性和交互式应用的装置

Info

Publication number: CN1134210A
Application number: CN94194021A
Authority: CN
Inventors: W·E·柯克西; K·S·莫里斯
Original assignee: Readspeak Inc
Current assignee: Readspeak Inc
Priority date: 1993-09-24
Filing date: 1994-09-23
Publication date: 1996-10-23
Also published as: WO1995009506A3; JP3016864B2; EP0721727A1; DK0721727T3; ATE216549T1; JPH09505671A; AU7842394A; EP0721727A4; DE69430434D1; ES2176259T3; CA2172606A1; EP0721727B1; WO1995009506A2; BR9407649A; DE69430434T2; US5741136A

Abstract

本发明是一种视听制品及其制作方法。该制品的画面中同时配有文字，每当听到一个单词或其它语音时，即可看到与该声音相关的文字。这样，以后再显示该语音或文字时应当能够在原视听者的头脑中唤起另一方。每个单词将适当地出现在某一可见透视图中靠近讲演者嘴巴的地方。该制品可以线性播放，也可以在视/听者的计算机控制下，同时带有其它训练材料。

Description

配有文字的视听制品；在视听制品中将语音和文字序列合理地结合的方法以及用于线性和交互式应用的装置

发明背景

以前的视听演播常借助于编配字幕(美国专利第3199115号和美国专利第5097349号)或气泡型图注(美国专利第1240774号和美国专利第2524276号)来对演播中的语音部分进行文字译释。

此前的字幕通常用于以另一种不同的语言来说某一单词的情况同时发生。这种情况是比较零乱和少见的，并且缺少一种被控制的模式来完成某一声音序列与另一文字序列的特定关联。另外，字幕文字的位置距离画面动作也较远。

此前的闪现卡片，每个显示一个单词，试图通过反复强调和非自然的练习来训练阅读。虽然最终也有一些效果，但是使用这种卡片需要较长时间的学习和一文化教练(母亲或学校教师)亲临现场。并且，这种卡片不提供本发明通过在叙述性的视听介质中提供对象所提供的关联能力，而该视听介质能在其文化教育部分之外引起学生的兴趣。

美国专利第5241671号揭示在计算机屏幕上显示一篇文章的文本时可对有的单词加下划线而有的不加。当用户从文本中选中某个单词时，该单词的定义即出现在屏幕上的某个窗口中，并可听到该单词的发音。另外，还可以同时显示一个声频语音图符。

同步字幕制品(Closed-captioned works)中提供独立的区域或相邻的方框，该区域或方框中可显示成组的单词。同步字幕系统中在屏幕的底部或其它远离演讲者或演员的位置显示成组的单词。同步字幕中的单词以不同的背景出现在视频画面场景的两侧、下面或上面，该背景通常是白色的。帮助聋哑人的具有直观听觉的手势语言符号单独显示在邻近的方框中。这些方框显示技术可能对观众造成侵犯。

教学用视听在播放时，有一位教师面对摄象机镜头进行讲解，同时在讲解者的前面显示出相应的书面文字。视听者厌倦这种形式，尤其是年轻的视听者会因此而失去对所讨论的主题内容的兴趣。

发明概要

简单地说，本发明包括一种视听制品及其制作方法，其中利用通常所见制品的正常设置，即伴随言语或其它语音的图象帧或段的一般常见序列，另外叠加上与视听者顺序听到的语音序列相关或相应的文字序列。我们称其为“同位”(euthetic)(位置适当的)字幕。上下文中，如果语音词汇和书面词汇是同一个单词，则二者是相应的。一种语言的语音词汇与另一种语言中具有相同含义的书面词汇是该上下文中的相关的词汇。

根据本发明的某些实施例，每一文字出现在讲演者头部的附近、上面或相关的地方。这样视/听者可以同时观察到书面词汇、语音词汇以及相伴的面部、唇部和头部运动表情，通过靠近和正对嘴巴产生一种单词是从嘴巴中发出的印象。根据另外一些实施例，每一文字出现在使用手语的人的手的附近、上面或相关的地方。根据本发明的另外一些实施例，点字文字“显示”在与说话人的语音词汇相关的某一单独的设备上。

本发明与不需指导的通常为娱乐、信息或其它非文化意图的目的而制作的视听制品一起使用。它可以作为新产品的组件或者先前视听制品的改进与这些资料一起使用。本发明还可以用于新制作的文化教育意图的为应用本发明而设计的资料。这种新制作的文化教育意图的实施本发明的资料对学生来说要比现有的用于文化教育目的的视听资料少一些厌烦和胁迫感。

本发明的视听制品可以线性播放，也可以通过编程和使用多媒体计算机平台集成制作一种可以由视/听者提供附加指令进行交互式操作的制品。这是本发明的一个特征。

本方法在社会工作中具有一定的实用性。因其中有大量的工作需要使用某一语言中的基本词汇如本文中所述在视听制品上编配文字，并向某一群体反复广播或展示该制品，教会其中的一部分人在阅读时能够认识这些词汇。这是本方法的另一特征。

附图简介

图1是先有技术；

图2是某一讲演者的立面视图序列，其中书面文字出现在讲演者嘴边的不同平面上；

图3是某一讲演者的立面视图序列，其中书面文字出现在讲演者嘴边的同一平面上；

图4是一流程图，其中示意本发明中所使用的步骤和设备部件；

图5是另一流程图，其中示意本发明的一个交互式制品的制作过程，该制品中同时包括直观语音和文字；

图6是一流程图，其中示意使用本发明中的另一些步骤和设备部件；

图7是一流程图，其中示意扩展视听制品中的音频部分以助于协调声音和文字的方法；

图8是一嘴巴附近有一单词的讲演者的正向立面视图；

图9是图8的一个部分示意性平面视图，其中画出了对话平面；

图10是一电视机屏幕的透视图，上面有处在不同位置的一个讲演者；

图11是另一讲演者的另一透视图；

图12a-b是依据本发明实施同位字幕的一种方法的流程图；

图13a-b是依据本发明实施同位字幕的另一系统和方法的流程图；

图14是依据本发明实施同位字幕的另一系统和方法的一个流程图；

图15a-b根据本发明的某一方面的示意波形延展；

图16是依据本发明实施同位字幕的另一系统和方法的一个流程图；

图17是图16中所述系统和方法关于计算机工作站的更详细一些的流程图；

图18是关于图17中所述计算机工作站的更详细一些的流程图；

图19a-d是应用同位字幕的表示；

图20a-b是依据本发明应用同位字幕所得到的四象限方位的表示；

图21是描述依据本发明同位字幕直观应用的流程图；

图22是依据本发明的一个多媒体平台的示意图；

图23是依据本发明的一种交互能力的流程图；

图24是图23中所描述的交互式单词发音的流程图；

图25是依据本发明的一个阻视区(blockout zone)的示意性表示；

图26是本发明的一个使用手势语言的实施例的示意性表示。

较佳实施例描述

图1表示先前技术的一个屏幕1，其上有一个典型的视听画面2(阴影区)，画面2中有一先前技术的同步字幕框3，里面写有“in thehouse”几个单词；画面中还有先前技术的一个手语框4以及位于下面里面写有“at eleven”几个单词的长条形的单词跟踪区5。区域5中的单词沿箭头A的方向移动。与画面2相关的包括对话在内的声音多半从声源区6中发出。

依据本发明的单词或其它符号通常安插在声源区6中视听的画面部分；不过，单词也可以叠加在画面2的其它部分上，其中视听者的注意力由他或她对该视听的兴趣来引导，如哪里有动作、该动作的位置与声源是否一致等。

在某一较佳实施例中，本发明将单词叠加在视听中的讲演者的参考平面(即与观察屏幕平面不平行的平面)里。因为观察者的参考平面是所视的屏幕的平面，单词从该平面中移动到演员的世界里的过程就更容易和直观地观察到，对观察者来说，看起来就象是三维物体一样。

参照图2-3，某一视听制品中讲演者S具有头部H和嘴巴M，书面文字“look”在其被说出时出现在平面P1里。平面P1近似地和连接说话人两只耳朵的直线(图中未画出)垂直。每个单词最好出现在其被说出或发出的那一短暂的时间段里。但是，该单词还可以刚好出现在其被说出的前后，只要它的出现与前面或随后说出的单词或声音不发生干扰。判断标准是当每个单词被说出时，有一相关的相应书面单词或文字提供给视听者。本发明在为演播提供一有意义的语音词汇(或其它声音)序列的同时，还提供一相应的书面单词、数字或其它文字的序列，以此在视听者的头脑中一次一个地完成语音词汇或声音与文字的关联。

演播中将许多书面词汇或文字一次一个地与相应的语音词汇对应，其目的在于为视听者提供一个在自然的情景中关联相应的声音和情景的机会，以便能够记住该声音和情景之间的关联，这样，将来再演播该声音或情景中的任一个时，视听者都应能记起另外一个。当这种目的是为了文化、外语学习和教育时，本发明还有另外一个优点，即增加理解过程的清晰性，其中视听者可以从视觉、听觉或两方面的刺激来接收和理解该单词，这依赖于他或她的能力、注意力或相对于显示该视听制品的部件的位置。第二个优点是外语声道的翻译，通过在嘴边或附近安插书面翻译来加强理解。第三个优点是可以通过同时显示两串字符，提供同时双语言演播，其中一串用说话者的语言，另一串用另外一种不同的语言，二者都与相应的语音同时出现。当语音序列播放的速度太快以至于无法在视觉上为其编配相应的文字时，视/听介质中受其影响的那部分可以对声音进行数字化扩展，而在视觉上通过数字或模拟手段进行扩展，以获得可理解的关联。

二字词、三字词或四字词(二、三或四个单词的序列)可以同时显示，其目的是在单个单词显示的速度过快时，使聋子或者不是说视听制品声道上的语言的人能够理解。两种情况下其意图在提供字幕时应使用观察者已经理解的语言。在这种情况下，应当使用尽可能少的单词，但是对有关的词组必需保证有足够的阅读理解时间。同步字幕或外文电影字幕的目的局限于对叙述性或娱乐性节目的理解而不是与声音的关联，上述方法是它们的一种替代品。

根据本发明的另外一个实施例，一个或多个单词出现在与使用手语的人的手的位置相关的地方，以便在这些单词和某个手语元素之间能有一关联。通过这种方法，可以为视听者提供一个在自然的情景中关联相应的单词的机会，其目的是要记住该单词和相应手语元素之间存在着关联。

根据本发明的另外一个实施例，视听制品中的单词只对使用特殊阅读设备的观察者可见。这有些类似于三维立体电影，只有当观众戴上一种特殊类型的眼镜时才能看见。实际上使用一种特殊类型的眼镜正是实现该实施例的一种较佳方法。

本发明中的单词作为制品的必备部分叠加在制品的画面情景上一起显示。画面情景包括人物、家具、天空、背景市景等要素。单词可以叠加在一个或多个画面部分上，这样可以防止对画面元素的某一部分的观察或对画面元素的某一部分的单独观察，其中的书面文字是透明或半透明的，或者由线框字符组成。

在说多个单词时，一次向视听者显示多个书面词汇使得如果不是不可能，就是很难将声音与其相应的书面词汇正确地关联。因此，重要的是，每一声音与其相应的书面词汇在显示时，采用的方式应尽可能使得视听者能够更容易地关联这两个元素。为避免分神和混淆，除了单词的附图、手语表示和外语译文外，每个语音词汇只应与其唯一的一个相关文字相伴。只要不是在说出前面或后面的单词期间产生这些显示，该单词或这些单词可以在其被说出之前、期间或之后显示。

只要每个单词和符号都要与其相应的语音关联，可以在发声期间出现多个单词或符号。例如，在说“thank-you”时，单词“thank-you”和“merci”可以同时出现。

在视听播放期间，通常是有说话期间，在该期间发声，而在其间是没有说话声的时间段。在本发明的一次一词过程里，书面文字只在下述时间段里出现：(1)说出前面单词后的没有说话声的时间段里；(2)说当前单词时；(3)接在说出当前单词后，说出下一单词前的没有说话声的时间段里。

在画面场景中显示基于字母的文字时，在不识字的学生的头脑中，这些文字就是要记住的标志图符，这需要调动大脑记忆整个视觉图象的那部分机制，正如胶卷接收光线生成相片一样。

同步伴随语音或图象对象的字母文字的具有创造性的分段显示能够在学生的头脑中建立起书面文字(“正常”书写，但作为标志图符来理解)与同时显示的一个或多个对象之间的可恢复的关联。经过多次重复后，再显示该基于字母单词的随后显示(标志图符)时，将会在学生的头脑中回忆起相应的对象，即语音词汇。显然，这定义了一个阅读过程，而对其能力的训练则是本发明的目的之一。

配对语音和书面词汇的同一过程还可以反过来训练认识某一给定语言的学生学会说该语言。在这种情况下，对象就是书面文字或标志图符，而学习目标则是语音词汇。

学习强度的关键，尤其是对于婴儿，在于要在一种“自然的，，环境里提供关联，该环境与小孩学说话的环境相似。小孩学说话的环境通常一般不包括正式的演讲课程，与本发明直观引进的环境是同一类型的环境。在本发明的较佳线性实施例中，向视听者提供某一故事的环境或者其它演示，其主要目的并不在于传授文化。当一个人在学说话时，容易受到直观的图象和动作的影响，它们在学习者的环境中由代理人(如父母)分别演示或暗示，并且充当将与并行出现的语音相关联的对象。本发明的环境中直观的图象和动作在学习者的环境中由代理人(如父母)分别演示或暗示，并且充当将与并行出现的语音相关联的对象。由于在学习者的环境中的代理人，这种环境中包括有意义的串行语音序列，而不是制造随机语音的规则。这种自然的语言学习环境出现在典型的电影中，其中描绘了自然的交流情景，在电影播放期间通过自然的重现向观众展现同一个单词。自然环境和电影仿真都提供了动作和对象之间的关联以及与其相应的解说语音，本发明在自然环境的视听仿真中将这种关联机会扩展到了书面文字上。

本方法在训练阅读时，向学生演示的是整个单词而不是单词的一个个音节或字母。观察和记忆一个完整的单词类似于观察和记忆一个符号，如一张猫的画面或一个汉语方块字等，其中的单词据信是由人的大脑以相同的方式进行处理。作为一个整体来观察每个单词(或情景阅读)提供了基于在大脑中开发关联的一种训练方法，这种关联是被直观地记住或铭记并通过关联而非人脑的分析(基于字母、音节或语音的阅读所要求的)来回忆的。

当两种书写形式，即一个为文字形式，另一个为图示形式，在显示时相应于同一语音词汇时，这两种形式可以融合成一个或由其中之一变化成另外一个，以示二者是相关的或甚至是同一个。例如，当一个人在电视中说出单词“cat”时，书面单词“c-a-t”可以演变成一张猫的画片。

由本发明所建立的关联不管是已有视听的上下文还是将要创建的，都以一种常规的、自然的画面情景出现。例如，这种关联可以出现在电影场景中，其中一个侦探正在与一个嫌疑犯进行交谈；也可以出现在电视中，其中一个演员正在演唱；还可以出现在电视新闻广播中，其中一个气象预报员正一边解说一边在地图上指指点点。在所有上述这些事例中，其目的都可不必包括文化目的。

本发明还可以用于训练唇语阅读，其中当语音和文字显示出现时还可同时观察到作为制品的视频部分的一部分的嘴唇的运动。

将单词放在位于所显示画面的区域中的上下文的源点(contextualsource)的地方或其附近的一个好处是，在观察者听到某个单词时能够更容易地看到该单词，而与此同时还能保持对制品中所发生的动作的注意力。虽然人眼可以看到位于观察屏幕的外围边缘处甚至是画面区域之外的单词，但在阅读这些单词时，若想同时保持对视听制品中的动作元素的注意力还是比较困难的。而这一点正是本发明比同步字幕要优越的原因之一。再者，同步字幕一次要同时显示多个单词，这妨碍了单个单词对单个声音的关联。另外，本发明按与说话人的空间关系显示单词，这减轻了胁迫感并减小了书面文字所占用的屏幕区域。

当两个人进行交谈时，不管他们是否是面对面，二人之间的某一平面都可以作为用来显示书面文字的平面。当其中的一个人不在摄象机镜头里时，该技术同样适用，其中观众能意识到镜头外的哪个人的相对位置。

每个书面单词的字母的颜色、形状和其它特性在设计时应注意不要造成一种紧迫感。例如，如果单词所在的背景画面部分的颜色是深蓝色的，单词的字母的颜色则应是浅蓝色的或具有其它亮度的蓝颜色。再者，书面单词还可以以透明或半透明的形式显示，这样可以继续看到背景被遮挡的那部分。另外，一个单词还可以以颜色、字体或其它形式编码安插在源点中。

再次看一下图2-3，当说话人(S)的头(H)转动时，平面P1，近似地和连接说话人两只耳朵的直线垂直，移动到三个(3)新的位置P2-P4。在说单词“AT”时透视地出现在平面P2中；在说单“SPOT”时透视地出现在平面P3中；最后在说单词“GO”时出现在平面P4中。每个单词在说出时位于头部或其附近甚至上面，而且最好位于说话人的嘴部(M)或其附近。请注意，当说话人(S)的头部(H)转动时，同时也发生了倾斜来抬高下巴(参见平面P4)。书写方向最好反映头部从一边到一边以及上和下的方向。

在图3中，所有说出的单词都出现在平面PP上，而平面PP则与播放视听的屏幕在同一平面上或与其平行。

图4中描述了制作视听制品的装置，其中包括：一个操作员平台；一台用来产生所需文字(如单词“look”)的视频文本发生器；用于提供上面尚无文字的制品的视频制品输入装置；一台数字光学操纵器，用于提供结合文本和视听制品的装置，从而在适当的平面方向上提供本发明的语音/文字关联。这种操作制作出一种具有创造性的视听制品，其中在制品中从头到尾都有这种关联，并且在观看和听的时候可以不必中断由本发明的线性实施例所制作的演播。

在说出单词的时候，成组的字母贴在、印在、叠加在或者位于画面中最容易观察到的部分。当说话人的头部可见时，单词则应位于嘴部或其附近，以暗示单词是从该嘴巴中发出的。该序列持续于整个制品(如果需要，制品中的一段)中所有或相当数量的语音。字母可以是任意大小、字体或颜色。在一较佳实施例中，大小、字体、颜色或其它图形属性在选择时要能反映背景颜色以及每一语音的情绪和意向内容。对于背景来说，每一书面单词缺省地都应是透明的、半透明的、线框状的或者取某一亮度的背景颜色，并要足以与背景颜色区分开来，以便在保持可见性的情况下避免在单词消失之后留下视网膜晕影(retinal halo)或鬼影图象。对于情绪、意向或含义，举例来说，恼怒的词汇应当具有红颜色和尖锐边界的字样，而催眠曲的歌词则应具有软色调和柔软、卷曲的字样。情绪上中性的单词应当使用缺省的颜色来显示。语音的细微差别可以通过音量、语气、音调或其它声音属性的变化来表现，图形属性的目的就在于为视听者提供一种与语音的细微差别平行的动态图形，从而达到增强将来可以由大脑回忆起的关联的目的。

自然的交流情景盛行于视听制品中。这些情景包括上面所提到的一个侦探质问一个嫌疑犯的情景。在包括自然的交流情景的场景中安插单词提供了一种用于建立声音和所期望的文字之间的关联的工具，而同时视听者仍能保持对制品中自然的交流情景的注意力。

在图5中，本发明的线性实施例可通过编制一种计算机程序用于创建一个交互式的实施例，该程序允许视/听者停止视听播放，于正在播放视听的屏幕上弹出一个菜单，通过选择提供单词的定义、语法和句子的上下文用法或其它信息。交互式的制品由视/听者的操作来播放，该视/听者使用一种可编程的教学装置，该装置用于使用上述程序显示上述制品，停止上述制品而查看所选的文字并获得有关该文字的附加信息。

在图6中，视听制品由计算机图形设计者在其工作站上创建，工作站的屏幕上向设计者显示的是制品的视频信号(模拟或数字形式)。在对帧(每秒30幅的画面序列)进行处理时，设计者创建一计算机图形或文本(即一个单词)并将其叠加到一帧或多帧的视频信号上，帧数的多少依赖于说出相应单词所需要的时间长短。说一个单词所需要的时间长短，在日常英语(或其它语言)会话中，很多单词都不相同，从六十分之一秒到二分之一秒不等。借助于动画技术和使用画盒软件可以将其它字符加到该单词中字符的字体以及在选定的平面上该单词的方向上。

图7示意延长声像制品中说出某个单词的时间的方法，其目的是为了给相关的书面文字提供更长的显示时间。这种对一个单词能够听到的时间延长或延展过程首先在硬盘上将单词的声音数字化为一个波形，然后再对该波形重新进行配置。这种技术不会改变音调和语气。

图8中的头部(H’)面向观察者的右首，如图中虚的源点线(SL)所示。直线(SL)位于说话人的参考对话平面(P5)(未画出)上。垂直的观察者参考平面(A)对于观察者来说所看到的只是一条直线。该平面保持固定不变。直线(SL)象一根烤肉的叉子串起单词“WOW”。

单词(WOW)的始点与说话人的头部(H′)之间的距离最好在距离(d2)之内，而距离(d2)则是说话人具有鼻子(N)的脸部(F)的宽度(d1)的两倍(如图8所示)。将单词(WOW)置于范围2d₁之内为说话人的头部处于比较近的位置的场景提供了一个比较好的结果。当头部处于远景中距离很远时，单词可以比头大，但仍然需要靠近头部(H′)或移至观察者感兴趣的对象处，在这种情况下，距离(d2)可以是距离(d1)的3或4倍。

图9是图8的一个示意性的平面视图，其中给出了对话平面(P5)、平面A(180度观察者参考平面)和平面B(90度平面)。具有源点线(SL)的对话平面(P5)中包括出现于该方向的单词“WOW”。出现在其它对话平面(P6)和(p7)(离观察者平面(A)，即180度的观察者参考平面25度)上的单词也能阅读，但是因为放在靠近观察者参考平面(A)(观察者的主视平面)的对话平面上的单词读起来比较困难，所以本发明的实际应用中很少使用这种放置方法(在该“阻视区”内)。

图10给出了电视机21的屏幕20，其上带有控制按钮22和23。说话人的头/脸的位置跟图2中一样是以多视角的形式显示的。屏幕20左边的视图显示了头(H)、脸(F)和上面带有源点线(SL1)的对话平面(P1)。脸平面(FP1)与对话平面(P1)垂直。源点线(SL1)与脸平面(FP1)垂直。当说话人站着或坐着时，脸平面通常位于与水平线垂直的平面上。源点线(SL1)直线地等分单词“look”。其它源点线(SL2)、(SL3)和(SL4)分别位于它们各自的对话平面(p2)、(p3)和(p4)上，每条线都直线地等分其各自的单词。

最后，图11给出的一个带有头(H3)、脸(F3)和嘴(M)的说话人(S2)。脸平面(FP2)与对话平面(图中未画出)垂直。位于对话平面(图中未画出)上的源点线(SL3)等分单词“fast”。因为当说话人(S2)向后靠或将其背部转向观察者时头部(H3)可能会沿任何方向移动，源点线(SL3)上的单词在该方向上由头部(H3)说出时，在各种情况下都应放在对话平面上，除非对话平面的方向不利于单词的阅读时。例如，假设说话人(S2)处于站姿并且背对观察者，单词“fast”如果此时放在对话平面上的话，将处于观察者无法阅读的一个角度。为避免这种情况，在保证识别性的情况下，单词“fast”应尽可能地放在离对话平面较近的平面上。这种情况下，单词“fast”将位于如此选定的平面中的某一透视方向上，给人一种该单词正远离头部(H3)的印象。

如果时间允许，单词“fast”可以先在使嘴部(M)的某一部分模糊的位置上出现，然后迅速地沿对话平面的直线(SL5)移动。也可以是，例如，如果单词将在屏幕上总共停留千分之0.024秒，则该单词可在嘴部(M)出现千分之0.008秒，然后沿直线(SL3)移动千分之0.008秒，最后在消失以前再在该直线上停留千分之0.008秒。

将单词放在源点线和透视平面上的目的在于造成单词是从嘴巴中说出来的感觉，从而使得单词能以视听场景的三维空间中的物体的形式出现。作为一个物体，该书面单词同样要受到其它物体所受到的物理定律的约束。因此，在使用本发明的视听制品中，如果有人走到说话人的前面，则说话人的声音有可能被遮住，将暂时看不到书面单词的一部分或全部。本发明这方面的目的是为了让单词看起来象是真的物体，这是一种年轻人普遍接受的概念，对于那些要求单词对用户友好而不是抽象的人来说，尤其如此。

单词的位置看起来应具有透视感，其中的字母大小应递增或递减(参见图8，其中左边的字母“W”比字母“O”要小，而字母“O”又比它右边的字母“W”要小)。具有透视感的单词看起来要有一定的方向，包括在该方向上的移动的状态。具有透视感靠近说话人嘴部的单词要看起来象是从该嘴中说出的。在不影响作为交流的一部分的说话人的面部表情的情况下，单词要尽可能地位于靠近嘴部的地方。

在一制品当中并不是所有的语音词汇都需要显示与其相应的书面单词，因为制品中所选定的某一使用阶段中在文字方面可能提供特殊的难度或由于其它原因不需要文字。

本发明的较佳用法是将单词、其它字数字符号或其它文字按照一有意义的顺序放在磁带、胶卷、计算机磁盘、光盘或其它介质上，按以上所述方法提供了它们与相应的磁带、胶卷、光盘或计算机磁盘的语音部分的关联。这种顺序可能持续贯串胶卷或磁带的首尾。本发明的视听制品最好具有一定的娱乐性，或者存在具有上下文关系的主题和内容。视/听者在其进行娱乐或其它内容时，不需要作出特别的努力即可完成学习过程。

本发明在制品的画面区中建立语音词汇的视觉感，好象每个单词都可见，并且具有维度、颜色、字体、运动和其它属性。单词的维度就是单词在显示屏幕平面或与之有一定角度的平面上的方向。在该方向上的单词如画面中的其它元素一样是三维的。

文字可以包括字母、单词、图象或其它符号。

根据本发明的另外一个实施例，文字是按点字法来显示的，并且最好放在一台单独的设备上。人们(例如有视觉障碍的人)可以在听声频节目时使用该设备。类似于其它实施例，可以在点字文字和语音表示之间建立其一一对应关系。这样便可以为用户提供一个在自然的情景中关联相应的文字的机会，其目的是要记住该文字与相应语音之间存在着关联。例子

在此举一个娱乐性视频游戏的例子。玩此游戏的人在其中可以利用一定数量的图示(文字图表)对象。各图表可以用光标拖动。每个对象都可以用鼠标单击，该对象随即渐变(“变形”)成其相应的书面单词(标志图符)，同时出现一画外音或一正说话的头象说出该单词。

本游戏的目的是要创建一排图示对象，并由它们形成一个有意义的序列。一旦玩游戏的人安排好了这排对象，只要双击鼠标即可激发各对象从左到右、一次一个地变形成其相应的书面单词(标志图符)，同时伴有相应的语音对象。然后该序列由说话人从左到右大声地重复，其间每个单词突然由一对象“伴音”。

在玩该游戏过程中，如果由拖动所创建的对象没能形成一个有意义的序列，双击鼠标时将没有输出，并且不能得分。

颜色和字体图形的差别可以随对话的有意义的表述的自然进展而变化。这样，本发明的整体“有机外观”(organic look)将创建出一种新型的标准“情感图形词汇表”。例如，下述颜色和图形可以用于以下情感：情感颜色图形高兴白色或粉红色闪烁/闪耀悲伤蓝色或黑色哥特体恼怒红色黑体性紫色波浪形

字体和颜色的差别也可以用来关联物理现实，如在自然界中发现的等。物性颜色图形冷灰色/冰蓝色冰条热橙黄色/红色火苗湿乳白色水滴

这种关联基于一般感觉或/和已有的关于人的情感和学习记忆的颜色、纹理等的图形效果之间的关联的研究。另外，现有的计算机图形软件的某些功能，包括视觉现象，如“闪光”和“辐射”等，可以用来增强关联的效果。

根据本发明，叙述性上下文中的同位字幕可以通过多种途径来实现。图12a-b示意了手工应用同位字幕的步骤。

图13a-b描述了一个电视导播系统以及应用同位字幕的方法。

图14描述了一个在不影响音调或语气、不造成明显失真的情况下放慢语音速度的系统和方法。图15a-b分别是单词“future”的正常和扩展波形，扩展时使用的是图14中所描述的系统和方法。图15b中波形的音调与图15a中的相同，因为在扩展时波的振幅保持不变。

当使用小数乘法器(fractional multiplier)而不是全整数乘法器(whole number multiplier)对波形进行扩展时，使用本发明的另外一个实施例比较好。例如，当需要将波形的长度延长一半(增加50％)而不是一倍(增加100％)时，已知的方法只是随机地选择波形的某些部分进行扩展。而根据本发明的特点，对于波形各部分的随机选择仅局限于元音部分。这可以由该领域中普通技术人员公知的装置来完成。

图16描述一个应用同位字幕的数字系统和方法，其中使用已有的字符动画软件来放置单词。

图17-21涉及本发明的另外一个实施例，是一个关于直观同位字幕的系统和方法。图17是图16中所描述的系统和方法，其中根据本发明的这一实施例应用了同位字幕软件。图18是一流程图，是对图16和17中所描述的系统和方法中所使用的计算机工作站的进一步的详细描述。

图19a-d展示根据本发明应用同位字幕的细节。图20a-b描述某一同位字幕单词所处的虚拟的三维空间的四个象限。图21是某一软件模块的流程图，该软件模块用来在虚拟三维空间的四个象限中为同位字幕单词选择一个较好的方向。这种软件最好在计算机工作站系统上运行。这里可以使用本领域普通技术人员已知的各种输入设备，而比较好的一种是由用户使用鼠标来指定象限和画出源点线，然后使用键盘确定输入。运行上述软件模块的计算机系统应自动地将单词放置在源点线上，其中源点线最好能穿过小写字母主体的中心处(排印工人所熟知的“×高度”)，如字母“e”中的水平横线。系统和软件安放好单词之后，相应的源点线即被删除。

图22是一示意图描述一根据本发明制作交互式同位字幕制品的多媒体平台以及与之结合使用的一交互式的多媒体计算机工作站。图23是一实现交互能力的软件的流程图。

图24是图23中所描述的交互式单词发音法的流程图。根据本发明的这一特色，当用户在某一特定的单词上停下同位字幕视听制品的播放时，可以就此上一堂发音课。用户面前最好能有一跟某计算机相连的麦克风，该计算机上装有音波分析软件，能将用户对单词发音的波形与存储在计算机文件里的正确发音的标准波形进行比较。然后计算机向用户提供反馈，或者对正确的发音进行肯定(如“很好”或“棒极了”)，或者提示用户把单词再说一遍。

图23中所描述的其它选项最好作成用户可以选择的交互式应用程序的菜单。例如，用户可以选择一书写应用程序，该程序允许用户对所显示的单词进行摹仿，摹仿的手段可以是通过键盘键入该单词，也可以使用电子书写板书写并将输出传给手写体识别软件。该交互式系统最好能提供一反馈通知用户他/她所键入/书写的单词是否正确。

图25示意如何在图9中所描述的前向“阻视区”中放置单词。作为一种方式，单词可以选择放在该区域中(图25中通过直线AA的平面上)，使得单词看起来象是从讲演者的嘴中发出的。

一个或多个单词也可以出现在与使用手语的人的手的位置相关的地方，以便在这些单词和某个手语元素之间能有一关联。图26中描述了本发明的这一实施例的一个例子，其中电视屏幕上有一讲演者和一嵌入的矩形区域，该区域中有一人手正作同步的手语翻译。当讲演者说出单词“future”时，手语翻译将对该单词作出相应的翻译，同时在嵌入的矩形区域中将显示出与该手语元素相关联的单词“Future”。

Claims

1.使某一人口群落熟悉某一区域所说语言中的某一书面词汇组的一种方法，包括：

(a)使要建立的多个视听制品的每一视听制品中都包括多个的图段，每一图段中都包括一系列的语音；

(b)相应与上述语音在上述图段里一次一个地叠加上书面单词，使得每一语音与每一书面单词相关；

(c)在上述制品中，为上述书面词汇组中的每一个单词提供至少一个图段；以及

(d)在一段时间里，于上述区域中的一定范围内，广播或介绍上述制品。

据此，上述人口群落可以熟悉上述语言中的上述书面词汇。

2.教育学生的一种方法，包括：

(a)制作一件或多件包含自然交流情景的视听制品，每一制品在该情景中都包括一些同时伴有相应文字的多个语音，每一视听中都包含一自然地引导学生的注意力的区域，该区域包括：(i)第一部分，语音看上去从中发出，或学生的视线由语音的含义引向该部分，(ii)第二部分，伴随每一语音同时显示上述文字，使得在学生的大脑中能够形成该语音与其相应文字之间的关联；

(b)让学生可以得到上述制品；以及

(c)允许学生额外地选择视听安排，但前提条件是该学生业已对每一语音都听过一定的次数，并且在听的时候同时观看了其相应的文字，以帮助学习各语音与各文字之间的对应关系。

3.权利要求2的方法，其中第一和第二部分相互重叠。

4.一种视听制品，内含将向视听者显示的具有自然交流情景的画面场景，包括：

(a)在该场景中由人或其它发音者说出的一系列语音；

(b)与上述语音序列相关的文字序列，在画面场景中简要地放置一文字，伴随所听到的语音同时显示一相对应的文字，使得在视听者的大脑中能够形成每一语音与其相应文字之间的关联。

5.权利要求4的视听制品，其中说话人有两只耳朵，文字出现在某一对话平面上，该对话平面基本上垂直于通过连接说话人两只耳朵的直线。

6.权利要求4的视听制品，该制品在一平面上的平的屏幕上播放，其中的文字出现在该屏幕所在的平面上或与之成一角度的平面上。

7.权利要求4的视听制品，其中每一文字都与说话人的头部紧密相关。

8.权利要求4的视听制品，其中的视听具有娱乐性内容。

9.权利要求4的视听制品，其中的视听具有教育性内容。

10.权利要求4的视听制品，其中在任一给定的时间仅向观察者显示一个文字。

11.权利要求4的视听制品，其中在同一时间里同时显示两个文字，每个文字都与一个语音相关联。

12.在视听演播的图象、帧或段上放置文字序列的一种方法，其中的图象、帧或其它段上，在声音发出期间，有一个人或无生命的发音器，该方法包括：

(a)选择一个操作员控制的包含视频文本设备的设备装置；

(b)使该视频文本设备显示一定数量的单词，每一单词有各种便于检索的大小、形状和方向；

(c)放置每一图象序列让该装置的操作员观察；

(d)使用视频文本设备选择上述显示的单词；

(e)将上述选定的单词传送到某一选定的图象、帧或段中的固定的位置上。

使得上述单词出现在某一段上，暂时地和局部地与单词的语音相互关联。

13.权利要求12的方法，其中单词放在靠近说话人头部的地方。

14.一种训练装置，包括可控的显示装置，显示权利要求4中的视听制品以及其它训练信息。

15.权利要求4的视听制品，其中的语音序列是一系列由无说话声的间隔隔开的语音词汇，在某一段时间里显示出与每一语音词汇相关的每一文字，其中该段时间包括说该单词的时间段及其前后无说话声的时间段。

16.权利要求4的视听制品，其中的视频演播包括非教育性的场景，该场景中叠加有上述文字。

17.权利要求6的视听制品，其中的单词透视地出现在上述文字平面上，这些平面与上述平的屏幕平面之间至少相差60度。

18.权利要求4的视听制品，其中的画面场景具有吸引注意力的动作区，而文字就放在这些区域中。

19.权利要求4的视听制品，其中的画面场景具有声源区，而文字就放在这些区域中。

20.权利要求4的视听制品，其中的单词透视地出现在某一源点线上。

21.一种基于计算机的资料处理系统，用于多个图段的同位字幕每一图段包括语音，该系统包括：

(a)用于处理数据的计算机处理器；

(b)用于存储数据的存储器；

(c)在代表多个上述包含语音的图段的数据上相应于上述语音一次一个地叠加表示书面单词的数据的装置，使得每一语音与每一书面单词相互关联。

22.权利要求21中所述的系统，其中的叠加方法包括：

(a)输入第一模拟视频信号的装置；

(b)将上述模拟视频信号转换成视频数字数据的装置；

(c)一次一帧地显示上述视频数字数据的装置；

(d)从用户单词数据和象限数据输入的装置；

(e)在视频数字数据中将单词数据与根据象限数据和其它预定的标准结合的装置；

(f)将上述视频数字数据转换成第二模拟视频信号的装置；

(g)输出第二模拟视频信号的装置。

23.权利要求21中所述的系统，其中从用户单词数据和象限数据输入的装置包括：

(a)允许用户选择象限的装置；

(b)允许用户画源点线的装置；

(c)为源点线计算一角度的装置；

(d)允许用户输入单词数据的装置；

(e)沿源点线自动放置单词的装置。

24.一种基于计算机的系统，允许用户交互地操作同位字幕视听制品，该系统包括：

(a)显示该视听制品的装置；

(b)暂停上述视听制品显示的装置；

(c)允许用户指定一个单词的装置；

(d)据上述用户所指定的单词进一步处理数据的装置。

25.权利要求24中所述的系统，其中允许用户指定一个单词的装置允许用户指定一个单词，并在暂停上述视听制品显示时显示该单词。

26.权利要求24中所述的系统，其中据上述单词进一步处理数据的装置包括：

(a)存储标准数据的装置，该数据表示多个单词的正确发音；

(b)从用户声音数据输入的装置，该数据表示用户对单词的发音；

(c)对上述单词比较声音数据和标准数据的装置；

(d)相应于比较声音数据的装置，向用户指出其对单词的发音是否正确的装置。