CN102576533A

CN102576533A - 面向对象的音频流系统

Info

Publication number: CN102576533A
Application number: CN2010800419937A
Authority: CN
Inventors: 詹姆斯·特雷西; 泰米斯·卡奇诺斯; 阿兰·D·克拉梅尔
Original assignee: SRS Labs Inc
Current assignee: DTS Inc
Priority date: 2009-08-14
Filing date: 2010-08-13
Publication date: 2012-07-11
Anticipated expiration: 2030-08-13
Also published as: JP2013502184A; US20110040396A1; KR101842411B1; CN102549655B; KR20120061869A; US8396575B2; WO2011020065A1; JP2013502183A; KR20170052696A; KR20120062758A; CN102576533B; JP5726874B2; US8396577B2; ES2793958T3; EP2465114B1; US20110040395A1; PL2465114T3; US9167346B2; EP2465259A4; EP3697083A1

Abstract

描述了一种用于提供面向对象的音频的系统和方法。通过将声源与这些声源的属性(例如位置、速度、方向性等)相关联来创建音频对象。可以除声道以外还使用音频对象，或替代声道来使用音频对象，以例如通过使音频对象成流来经由网络向客户端设备分发声音。对象可以限定空间中与二维坐标和三维坐标相关联的位置。可以基于可用网络资源和客户端设备资源使对象自适应成流传送至客户端设备。客户端设备上的再现器可以使用对象的属性来确定如何再现对象。再现器还基于与客户端设备的再现环境相关的信息来调整对象的回放。还描述了音频对象创建技术的多种示例。

Description

面向对象的音频流系统

相关申请

本申请要求根据35U.S.C第119条第(e)项享有2009年8月14提交的发明名称为“Production，Transmission，Storage and RenderingSystem for Multi-Dimensional Audio”的美国临时专利申请No.61/233,931的优先权，在此并入其公开的全部作为参考。

背景技术

诸如立体声和环绕声之类的现有音频分发系统基于非灵活的范例，其中实现了从产生点至回放环境的固定数目的声道。传统上，贯穿整个音频链，在创建的声道的数目与物理上传输或记录的声道数目之间存在一对一的对应关系。在一些情况下，通过被称作混合(mix-down)的过程减少了可用声道的数目以适应回放配置，其中所述回放配置具有比传输流中提供的声道数目要少的再现声道。混合的普通示例是将立体声混入单声道以经由单个扬声器再现，以及将多声道环绕声混入立体声以经由两个扬声器回放。

音频分发系统也不适于3D视频应用，因为其不能够从三维空间中精确地再现声音。这些系统受到扬声器的数目和位置的限制，并且受到以下事实的限制：一般会忽视心理声学原理。结果，即使最精巧的声音系统也只是创建了对声学空间的粗糙仿真，而并没有接近真实的3D或多维呈现。

发明内容

描述了一种用于提供面向对象的音频的系统和方法。在一些实施例中，通过将声源与这些声源的属性(例如位置、速度、方向性等)相关联来创建音频对象。可以除声道以外还使用音频对象，或替代声道来使用音频对象，以例如通过使音频对象成流来经由网络向客户端设备分发声音。对象可以限定空间中与二维坐标和三维坐标相关联的位置。可以基于可用网络资源和客户端设备资源使对象自适应成流传送至客户端设备。客户端设备上的再现器可以使用对象的属性来确定如何再现对象。再现器还基于与客户端设备的再现环境相关的信息来调整对象的回放。还描述了音频对象创建技术的多种示例。

在一些实施例中，一种产生面向对象的音频流的方法包括：选择音频对象以在音频流中传输，其中音频对象包括音频信号数据和对象元数据。对象元数据可以包括一个和多个对象属性。所述方法还包括将具有对象元数据的对象报头进行组装，提供具有音频信号数据的音频有效载荷，利用一个和多个处理器组合对象报头和音频有效载荷以形成音频流的至少一部分，以及经由网络传输音频流。

在各种实施例中，一种用于产生面向对象的音频流的系统可以包括在一个和多个处理器中实现的面向对象的成流模块。面向对象的成流模块可以选择对声源加以表示的音频对象，其中音频对象包括音频信号数据和对象元数据。对象元数据可以包括声源的一个和多个属性。面向对象的成流模块还可以包括将对象元数据与音频信号数据一起编码，以形成单个面向对象的音频流的至少一部分。此外，面向对象的成流模块还可以经由网络传输面向对象的音频流。

为了概括本公开，本文已经描述了本发明的一些方面、优势和新颖特征。应该理解，根据本文公开的本发明的任意特定实施例，可能没有必要实现所有这些优势。因此，可以以如下方式实现或执行本文所公开的发明：实现或优化根据本文教导的一个优势或一组优势，而没有必要实现可能是本文教导或建议的其它优势。

附图说明

贯穿附图，参考数字被重复使用，以指示所引用元件之间的对应性。提供附图来示出本文所描述的本发明的实施例，而非限制本发明的范围。

图1A和1B示出了面向对象的音频系统的实施例；

图2示出了面向对象的音频系统的另一实施例；

图3示出了用于本文所描述的任意面向对象的音频系统中的成流模块的实施例。

图4示出了面向对象的音频流格式的实施例；

图5A示出了音频流组装过程的实施例；

图5B示出了音频流再现过程的实施例；

图6示出了自适应音频对象成流系统的实施例；

图7示出了自适应音频对象成流过程的实施例；

图8示出了自适应音频对象再现过程的实施例；

图9示出了针对面向对象的音频捕获的示例场景；

图10示出了用于面向对象的音频捕获的系统的实施例；以及

图11示出了用于面向对象的音频捕获的过程的实施例。

具体实施方式

I.介绍

除了以上描述的现有系统的问题之外，音频分发系统还没有充分地考虑听众的回放环境。相反，音频系统被设计为向最终的收听环境传送指定数目的声道，而没有对环境、听众偏好或心理声学原理的实现进行任意的补偿。传统上，将这些功能和能力留给了系统集成器。

本公开描述了用于使面向对象的音频成流的系统和方法，其解决了这些问题中的至少一部分。在一些实施例中，通过将声源与这些声源的属性(例如，位置、速度、方向性等)相关联来创建音频对象。可以使用音频对象来替代声道，或者除了声道之外还使用音频对象，以例如通过使音频对象成流来经由网络向客户端设备分发声音。在一些实施例中，这些对象与声道不相关或者没有横跨(pan)声道之间的位置，而是利用相关联的二维或三维坐标限定了其在空间上的位置。客户端设备上的再现器可以使用对象的属性来确定如何再现对象。

在一些实施例中，再现器还可以基于可用计算资源来调整再现和/或流化，以考量再现器的环境。类似地，可以基于诸如可用带宽之类的网络条件来调整音频对象的流化。还描述了音频对象创建技术的各种示例。有利地，本文描述的系统和方法可以减少或克服关于刚性音频声道分发模型的缺点。

作为概括，图1A和1B介绍了面向对象的音频系统的实施例。后面的附图描述了这些面向对象的音频系统可以实现的技术。例如，图2至图5B描述了用于使面向对象的音频成流的各种示例技术。图6至8描述了用于基于环境和网络条件使面向对象的音频自适应地成流并对其进行再现的示例技术。图9至11描述了示例音频对象创建技术。

当用于本文时，术语“成流(streaming)”及其派生词，除了具有其通常含义之外，还意味着将内容从一个计算系统(例如服务器)分发至另一计算系统(例如客户端)。术语“成流”及其派生词还可以涉及通过使用包括BitTorrent和相关协议的各种协议中的任意一种协议来经由对等网络分发内容。

II.面向对象的音频系统概要

图1A和1B示出了面向对象的音频系统100A、100B的实施例。可以以计算机硬件和/或软件实现面向对象的音频系统100A、100B。有利地，在一些实施例中，面向对象的音频系统100A、100B可以启用内容创建者创建音频对象、使这些对象成流以及再现对象，而不用被绑定到固定的声道模型上。

具体地参考图1A，面向对象的音频系统100A包括音频对象创建系统110A、在内容服务器120A中实现的成流模块122A以及用户系统140中实现的再现器142A。音频对象创建系统110A可以向用户提供创建和修改音频对象的功能。安装在内容服务器120A上的成流模块122A可以用于使音频对象成流来经由网络130向用户系统140传送。网络130可以包括LAN、WAN、因特网、或其组合。用户系统140上的再现器142A可以再现音频对象，以输出至一个或多个扬声器。

在所描述的实施例中，音频对象创建系统110A包括对象创建模块114和面向对象编码器112A。对象创建模块114可以例如将音频数据与该音频数据的属性相关联，以提供用于创建对象的功能。任意类型的音频可以被用于产生音频对象。可以将音频生成为对象并使其成流的一些示例可以包括与电影、电视、电影预告、音乐、音乐视频、其它在线视频、视频游戏等相关联的音频。

首先，音频数据可以是记录的或获取的。对象创建模块114可以提供用户接口，使得用户能够访问、编辑或操纵音频数据。音频数据可以表示声源或声源的集合。声源的一些示例包括对话、背景音乐以及任意物体(例如汽车、飞机或任意道具)产生的声音。更一般地，声源可以是任意音频片段。

声源可以具有一个或多个属性，对象创建模块114可以将该属性与音频数据相关联，以创建对象。属性的示例包括声源的位置、声源的速度、声源的方向性等。一些属性可以从音频数据直接获得，例如反映了何时记录音频的时间属性。用户可以向对象创建模块114提供其它属性，例如产生音频的声源类型(例如，汽车与演员)。此外，对象创建模块114还可以从其它设备自动导入其它属性。作为示例，可以从全球定位系统(GPS)设备中获得声源位置，并将其导入对象创建模块114。下文将更详细地描述属性的附加示例和用于识别属性的技术。对象创建模块114可以将音频对象存储在对象数据储存库116中，该对象数据储存库116可以包括数据库或其它数据存储库。

面向对象编码器112A可以将一个或多个音频对象编码为音频流，以经由网络传输。在一个实施例中，面向对象编码器112A将音频对象编码为未压缩脉码调制(PCM)音频和相关联的属性元数据。在另一实施例中，面向对象编码器112A还在创建流时压缩对象。

有利地，在一些实施例中，面向对象编码器产生的音频流可以包括至少一个对象，该对象由元数据报头和音频有效载荷表示。音频流可以由帧构成，每个帧可以包括对象元数据报头和音频有效载荷。一些对象可以只包括元数据而没有音频有效载荷。其它对象可以包括音频有效载荷但具有少量元数据或几乎没有元数据。下文将更详细地描述这些对象的示例。

音频对象创建系统110A可以经由网络(未示出)向内容服务器120A提供已编码的音频对象。内容服务器120A可以驻留已编码的音频对象，以用于后续传输。内容服务器120A可以包括一个或多个机器，例如物理计算设备。用户系统可以经由网络130访问内容服务器120A。例如，内容服务器120A可以是web服务器、内容传送网络(CDN)中的边缘节点等。

用户系统140可以访问内容服务器120A，以请求音频内容。响应于接收到这个请求，内容服务器120A可以使音频内容成流、向用户系统140上传或发送音频内容。任意形式的计算设备可以访问音频内容。例如，用户系统140可以是桌上型设备、膝上型设备、平板设备、个人数字助理(PDA)、电视、无线手持式设备(例如电话)等。

用户系统140上的再现器142A可以对已编码的音频对象进行解码，并再现音频对象，以输出至一个或多个扬声器。再现器142A可以包括多种不同的再现特征、音频增强、心理声学增强等，以再现音频对象。再现器142A可以将音频对象的对象属性用作关于如何再现对象的提示。

参考图1B，面向对象的音频系统100B包括系统100A的多种特征，例如音频对象创建系统110B、内容服务器120B和用户系统140。所示部件的功能可以与上述描述的部件的功能相同，但此处应注意具有一些差异。例如，在所描述的实施例中，内容服务器120B包括自适应成流模块122B，其可以动态地适应要成流被传送至用户系统140的对象数据的数量。同样地，用户系统140包括自适应再现器142B，其可以适应于音频成流和/或用户系统140再现对象的方式。

如从图1B中可见，面向对象编码器112B已经从音频对象创建系统110B移动到了内容服务器120B。在所描述的实施例中，音频对象创建系统110B向内容服务器120B上传音频对象而非音频流。内容服务器120B上的自适应成流模块122B包括面向对象编码器112B。因此，在所描述的实施例中，在内容服务器120B上执行对音频对象的编码。备选地，音频对象创建系统110B可以使已编码对象成流来传送至自适应成流模块122B，自适应成流模块122B对音频对象解码，以用于进一步操纵和后来的重新编码。

通过编码内容服务器120B上的对象，自适应成流模块122B可以在使成流之前动态地调整对对象编码的方式。自适应成流模块122B可以监视可用的网络130资源，例如网络带宽、等待时间等。基于可用的网络资源，自适应成流模块122B可以将或多或少的音频对象编码为音频流。例如，随着更多的网络资源变得可用，自适应成流模块122B可以将相对更多的音频对象编码为音频流，反之亦然。

自适应成流模块122B还可以调节要编码为音频流的对象的类型，而不是对象的数目(或者还包括对象的数目)。例如，当网络资源受限时，自适应成流模块122B可以对较高优先级的对象(例如对话)进行编码，而不对较低优先级的对象(例如特定背景声音)进行编码。将在下文更详细地描述基于对象优先权进行自适应成流的概念。

自适应再现器142B还可能对如何将音频对象形成流传送到用户系统140中造成影响。例如，自适应再现器142B可以与自适应成流模块122B进行通信，以控制要形成流传送至用户系统140的音频对象的数量和/或类型。自适应再现器142B还可以基于回放环境调节对音频流再现的方式。例如，大型剧院可以指定成百或上千的放大器和扬声器的位置和容量，而自包含的TV则可能指定只有两个放大器声道和扬声器可用。基于这个信息，系统100A、100B可以优化声场呈现。可以根据再现资源和环境而利用系统100A、100B中的不同类型的再现特征，这是因为输入音频流可以是描述性的，并且不取决于回放环境的物理特性。将在下文更详细地描述自适应再现器142B的这些和其它特征。

在一些实施例中，即使面向对象编码器(例如编码器112A)向自适应成流模块122B发送已编码流，也可以实现本文所描述的自适应特征。当计算资源或网络资源变得不大可用时，自适应成流模块122B可以从音频流中去除或过滤对象，而不是匆忙地(on the fly)组装新音频流。例如，自适应成流模块122B可以从流中去除与对再现而言相对不重要的对象相对应的分组。将在下文更详细地描述向对象分配重要度以使对象成流和/或再现对象的技术。

如上述实施例所述，所公开的用于音频分发和回放系统100A、100B可以包括从音频内容的初始产品到听众的感知系统的整个链。系统100A和100B是可缩放的，并且可以容易地包含在在传输/存储或多维再现系统中概念改进的未来证明中。系统100A、100B还可以从基于影院的较大呈现形式缩放为家庭影院配置和自包含的TV音频系统。

与基于物理声道系统的现有技术相反，系统100A、100B可以将音频内容的作品抽象化为音频对象序列，该音频对象提供了关于场景的结构的信息以及关于场景内的独立部件的信息。假定资源可用，系统100A、100B可以使用与每个对象相关联的信息，来创建对所提供的信息最精确地表示。这些资源可以被指定为针对系统100A、100B的附加输入。

除了使用物理扬声器和放大器之外，系统100A、100B还可以并入心理声学处理，以增强听众在声学环境中的体验，并实现对与可视场中的位置精确地对应的3D对象的定位。还可以将这种处理作为可用资源定义到系统100A、100B(例如再现器142)上，以增强或优化对传输流中包括的音频对象信息的呈现。

可以将流设计为是可扩展的，使得在任意时刻都可以添加附加信息。再现器142A、142B可以是通用的或被设计为支持特定环境以及资源混合。可以任意地并入音频再现方面的未来改进和新概念，以及在传输/所存储流中包括的相同描述性信息潜在地用于更精确的再现。与当前系统不同，系统100A、100B是灵活的和适应性的。

为了容易说明，本说明书主要描述了在经由网络使音频成流的上下文中的面向对象音频技术。然而，还可以在非网络环境中实现面向对象的音频技术。例如，可以将面向对象的音频流存储在计算机可读存储介质上，例如DVD盘、蓝光盘等。媒体播放器(例如蓝光播放器)可以回放在盘上存储的面向对象音频流。还可以将面向对象的音频包下载至用户系统中的本地存储器上，然后从本地存储器回放。更多其它变型是可能的。

应该意识到，可以对参考图1A和1B描述的一些部件的功能进行组合、修改或省略。例如，在一种实现中，可以在内容服务器120上实现音频对象创建系统110。可以从音频对象创建系统110向用户系统140直接连续传送音频流。多种其它配置是可能的。

III.音频对象成流实施例

现在将参考图2至5B描述音频对象系统的更详细的实施例。参见图2，示出了面向对象的音频系统200的另一实施例。系统200可以实现上述系统100A、100B的任意特征。系统200可以产生面向对象的音频流，对所述面向对象的音频流进行解码、再现，并由一个或多个扬声器输出。

在系统200中，向面向对象编码器212提供音频对象202。如上所述，可以通过音频内容创建系统或内容服务器上的成流模块实现面向对象编码器212。面向对象编码器212可以对音频对象进行编码和/或将其压缩为比特流214。面向对象编码器212可以使用任意编解码或压缩技术来编码对象，包括基于任意运动图像专家组(MPEG)标准的压缩技术(例如以创建MP3文件)。

在一些实施例中，面向对象编码器212创建针对不同音频对象的单个比特流214，单个比特流214具有元数据报头和音频有效载荷。面向对象的编码器212可以经由网络传输比特流214(例如参见图1B)。在用户系统214上实现的解码器220可以接收比特流214。解码器220可以将比特流214解码为其组成的音频对象202。解码器220向再现器242提供音频对象。在一些实施例中，再现器242可以直接实现解码器220的功能。

再现器242可以将音频对象再现为适宜在一个或多个扬声器250上回放的音频信号244。如上所述，再现器142A可以将音频对象的对象属性用作如何再现音频对象的提示。有利地，在特定实施例中，因为音频对象包括这些属性，所以可以改变再现器142A的功能，而不用改变音频对象的格式。例如，一种类型再现器142A可以使用音频对象的位置属性，以将音频从一个扬声器跨(pan)至另一个扬声器。响应于确定了心理声学增强对于再现器142A可用，第二再现器142A可以使用相同的位置属性来执行对音频对象的3D心理声学过滤。总之，再现器142A可以考虑可用的部分或所有资源，以创建最佳的可能呈现。随着再现技术的改进，可以将利用了音频对象已有格式的优点的附加再现器142A或再现资源添加到用户系统140中。

如上所述，面向对象的编码器212和/或再现器242还可以具有自适应的特征。

图3示出了用于本文所描述的任意面向对象的音频系统的成流模块322的实施例。成流模块322包括面向对象编码器312。可以以硬件或软件来实现成流模块322和编码器312。所描述的实施例示出了如何将不同类型的音频对象编码为单个比特流314。

所示示例成流模块322接收两种不同类型的对象：静态对象302和动态对象304。静态对象302可以表示音频声道，例如5.1声道环绕声。每个声道可以被表示为静态对象302。一些内容创建者可能希望使用声道而非系统100A、100B的面向对象功能，或者除了声道之外还希望使用系统100A、100B的面向对象功能。静态对象302为这些内容创建者提供了使用声道的方式，以促进与现有固定声道系统的向后兼容，并使得容易使用。

动态对象304可以包括可以使用的任意对象来代替静态对象302，或者除了静态对象302之外还可以包括可以使用的任意对象。动态对象304可以包括增强，使得当一起再现动态对象304与静态对象302时，增强与静态对象302相关联的音频。例如，动态对象304可以包括心理声学信息，再现器可以使用所述心理声学信息来增强静态对象302。动态对象304还可以包括背景对象(例如，路过的飞机)，再现器可以使用所述背景对象来增强音频场景。然而，动态对象304不必是背景对象。动态对象304可以包括对话或任意其它音频对象。

与静态对象302相关联的元数据可以是很少，或者不存在。在一个实施例中，该元数据简单地包括“声道”的对象属性，其指示静态对象302与哪个声道相对应。在一些实现中，因为元数据没有改变，因此，静态对象302的对象属性是静态的。相反，动态对象304可以包括变化的对象属性，例如变化的位置、速度等。因此，与这些对象304相关联的元数据可以是动态的。然而在一些情况下，与静态对象302相关联的元数据可以随着时间改变，而与动态对象304相关联的元数据可以保持不变。

此外，如上所述，一些动态对象304可以包括极少的音频有效载荷或者不包括音频有效载荷。例如，环境对象304可以指定所期望的发生了场景的声学环境的特性。这些动态对象可以包括与音频场景发生的建筑物或室外区域的类型相关的信息，例如房间、办公室、教堂、体育场等。再现器可以使用这个信息，以例如应用与所指示的环境相对应的适量的回响或延迟来调节对静态对象302中的音频的回放。在一些实现中，环境动态对象304还可以包括音频有效载荷。下文将参考图4描述环境对象的一些示例。

另一种类型的对象是音频定义对象，其可以包括元数据但是具有极少有效载荷或没有有效载荷。在一个实施例中，用户系统可以包括音频片段或声音的库，再现器可以在接收到音频定义对象时再现所述音频片段或声音的库。音频定义对象可以包括针对在用户系统上存储的音频片段或声音的引用，以及关于将片段播放多少时间、是否循环片段等的指令。可以由音频定义对象部分地或者甚至是单独地构成音频流，其中将一部分或全部的实际音频数据存储在用户系统上(或者可由另一服务器访问)。在另一实施例中，成流模块322可以向用户系统发送多个音频定义对象，之后发送多个音频有效载荷对象，以分离元数据和实际音频。多种其它配置是可能的。

内容创建者可以使用描述性的计算机语言(例如使用音频对象创建系统110)来声明静态对象302或动态对象304。当创建稍后要形成流的音频对象时，内容创建者可以声明期望数目的静态对象302。例如，内容创建者可以请求始终是对话静态对象302(例如，与中心声道相对应)或任意其它数目的静态对象302。该“始终是”的性质还可以使得静态对象302是静态的。相反，动态对象304可以进入或离开音频流，并且并非总是存在于音频流中。当然，这些特征可以是相反的。例如，可能期望的是选通或触发静态对象302。例如，当在给定静态对象302中不存在对话时，就在音频流中不包括该对象，这可以节约计算和网络资源。

图4示出了面向对象的音频流的格式400的实施例。音频流的格式包括比特流414，其可以与上述任意比特流相对应。将比特流414的格式400分解为更详细的连续视图(420，430)。所示比特流的格式400只是示例实施例，并可以根据实现而改变。

在所描述的实施例中，比特流414包括流报头412和宏帧420。流报头412可以在比特流414的起始端与末端出现。可以在流报头412中包括的信息的一些示例包括流的作者、流的起源、版权信息、与流的创建和/或传送相关的时间戳、流的长度、关于使用了哪种编解码器来编码流的信息等。解码器和/或再现器可以使用流报头412，以适当地解码流414。

宏帧420将比特流414分为数据部分。每个宏帧420可以与音频场景或音频的时间片断相对应。每个宏帧420还包括宏帧报头422和独立帧430。宏帧报头422可以限定宏帧中包括的音频对象的数目、与宏帧420相对应的时间戳等。在一些实现中，可以在宏帧420中的帧430之后放置宏帧报头422。每个独立帧430可以表示单个音频对象。然而，在一些实现中，帧430还可以表示多个音频对象。在一个实施例中，再现器在接收整个宏帧420之后才对与宏帧420相关联的音频对象进行再现。

每个帧430包括帧报头432和音频有效载荷434，帧报头432包括对象元数据。在一些实现中，可以在音频有效载荷434之后放置帧报头432。然而，如上所讨论的，一些音频对象可以只具有元数据432或者只具有音频有效载荷434。因此，一些帧432可以包括具有极少或不具有对象元数据的帧报头432(或者根本没有报头)，以及一些帧432可以包括极少音频有效载荷434或不包括音频有效载荷434。

帧报头432中的对象元数据可以包括关于对象属性的信息。下表示出了元数据的示例，其中所述元数据可以用于限定对象属性。具体地，表1示出了各种对象属性，其通过属性名称和属性描述来组织。在一些设计中，可以实现比所示属性更少或更多的属性。

表1-示例对象属性

以下在表2中示出了在表1中列出的OBSTRUCT_PRESET(障碍物预置)的示例值。障碍物预置值可能影响声源从摄像机或听众的视角被阻碍或阻挡的程度。因此，例如，对从厚门后面发射出来的声源进行的再现可能与对从门帘后面发射出来的声源进行的再现不同。如上所述，再现器可以基于这些和其它对象属性来执行任意期望的再现技术(或根本不执行再现技术)。

障碍物预置	类型
		1	单门
2	双门
		3	薄门
4	后门
		5	木墙
6	砖墙
		7	石头墙
8	门帘

表2-示例障碍物预置值

与障碍物预置(有时被称作阻碍物)类似，REVERB_PRESET(回响预设)可以包括如表3所示的示例值。这些回响值可以与声源所处的环境的类型相对应。因此，对礼堂中发出的声源进行的再现可能与对起居室中发出的声源进行的再现不同。在一个实施例中，环境对象包括回响属性，回响属性包括诸如以下所描述的这些预置值。

回响预置	类型
		1	小路
2	竞技场
		3	礼堂
4	浴室
		5	洞穴
6	房间
		7	城市
8	音乐会大厅
		9	森林
10	走廊
		11	飞机库
12	大型房间
		13	起居室
14	中型房间
		15	山区
16	停车库
		17	板状物
18	房间
		19	水下

表3-示例回响预置

在一些实施例中，并非只使用上述回响预置来描述环境对象。替换地，可以利用一个或多个属性来描述环境对象，例如(不需要被预置的)回响量、回声量、背景噪声的度等。多种其它配置是可能的。类似地，音频对象的属性一般可以具有除数值以外的形式。例如，属性可以包括限定了声源的行为或特性的代码或指令片段。

图5A示出了音频流组装过程500A的实施例。可以通过本文所描述的任意系统实现音频流组装过程500A。例如，可以通过以上描述的面向对象编码器或成流模块中的任意一个来实现音频流组装过程500A。音频流组装过程500A将至少一个音频对象组装为音频流。

在块502处，选择音频对象以成流。音频对象可以通过上述音频对象创建模块110来创建。因此，选择音频对象可以包括访问对象数据存储库116中的音频对象。备选地，成流模块122可以从计算机存储器中访问音频对象。为了容易说明，该示例图描述了使单个对象成流，但是应该理解，可以使多个对象成流在音频流中。所选对象可以是静态或动态对象。在该具体示例中，所选对象具有元数据和音频有效载荷。

在块504处，对具有对象元数据的对象报头进行组装。该元数据可以包括对对象属性的任意描述，其中已经在上文描述了所述对象属性的描述的示例。在块506处，提供了具有对象的音频信号数据的音频有效载荷。

在块508处，将对象报头和音频有效载荷结合，以形成音频流。形成音频流可以包括编码音频流、压缩音频流等。在块510处，经由网络传输音频流。当可以使用任意成流技术形成音频流时，还可以将音频流上传至用户系统(或相反，从用户系统下载)。之后，如下文将参考图5B所描述的，用户系统可以再现音频流。

图5B示出了音频流再现过程500B的实施例。可以通过本文所描述的任意系统来实现音频流再现过程500B。例如，可以通过本文所描述的任意再现器来实现流再现过程500B。

在块522处，接收面向对象的音频流。可以通过使用过程500A的技术或者以上描述的其它技术来创建该音频流。在块524处，访问音频流中的对象元数据。使用例如与编码流的编解码相同的编解码来解码流，以获取该元数据。

在块526处，识别元数据中的一个或多个对象属性。再现器可以将这些对象属性的值识别为用于再现流中的音频对象的提示。

在块528处，再现音频流中的音频信号。在所描述的实施例中，根据所述一个或多个对象属性再现音频流，以产生输出音频。在块530处，向一个或多个扬声器提供输出音频。

IV.自适应成流和再现实施例

以上参考图1B描述了自适应成流模块122B和自适应再现器142B。图6的系统600示出了自适应成流模块622和自适应再现器642的更详细实施例。

在图6中，自适应成流模块622具有若干部件，包括优先级模块624、网络资源监视器626、面向对象编码器612和音频通信模块628。自适应再现器642包括计算资源监视器644和再现模块646。在不同实现中，可以省略所示部件中的一部分。面向对象编码器612可以包括上述编码特征中的任意编码特征。音频通信模块628可以经由网络(未示出)向自适应再现器642传输比特流614。

优先级模块624可以将优先级值或其它优先级信息应用到音频对象上。在一个实施例中，每个对象可以具有优先级值，该优先级值可以是数字值或类似值。优先级值可以从再现的角度指示对象的相对重要程度。对于再现而言，具有较高优先级的对象比具有较低优先级的对象更重要。因此，如果资源受限，则可以忽视具有相对较低优先级的对象。最初可以由内容创建者使用以上描述的音频对象创建系统110来建立优先级。

作为示例，与背景声对象相比，包括视频对话的对话对象具有相对较高的优先级。例如，如果优先级值的范围是从1至5，则对话对象可以具有优先级值1(意味着最高优先级)，而背景声对象则可以具有较低优先级(例如从2至5)。优先级模块624可以建立阈值，以传输满足特定优先级级别的对象。例如，优先级模块624可以建立阈值3，使得具有优先级1、2和3的对象可以被传输至用户系统，而不传输具有优先级4或5的对象。

优先级模块624可以基于由网络资源监视器626确定的变化的网络条件来动态地设置该阈值。网络资源监视器626可以监视可用网络资源或其它服务质量测量标准，例如带宽、等待时间等。网络资源监视器626可以向优先级模块624提供这个信息。如果网络资源较多，优先级模块624可以使用这个信息来调节阈值，以允许向用户系统传输较低优先级的对象。类似地，当网络资源较少时，优先级模块624可以调节阈值，以阻止传输较低优先级的对象。

优先级模块624还可以基于从自适应再现器642处接收到的信息来调节优先级阈值。自适应再现器642的计算资源模块644可以识别用户系统的回放环境的特性，例如与用户系统相连的扬声器数目、用户系统的处理能力等。计算资源模块644可以经由控制通道650向优先级模块624传送计算资源信息。优先级模块624可以基于该信息调节阈值，以在计算资源较多的情况下发送较高和较低优先级对象，以及在计算资源较少的情况下只发送较高优先级的对象。因此，自适应再现器642的计算资源监视器644可以控制要形成流传送至用户系统的音频对象的数量和/或类型。

自适应再现器642还可以基于回放环境对再现音频流的方式进行调节。例如，如果用户系统与两个扬声器相连，则自适应再现器642可以再现两个扬声器上的音频对象。如果附加扬声器与用户系统相连，则自适应再现器642也可以再现附加声道上的音频对象。当再现处于一个或两个扬声器(有时，或多个扬声器)上的对象时，自适应再现器642还可以使用心理声学技术。

优先级模块624可以动态地改变音频对象的优先级。例如，优先级模块624可以设置对象，以使其具有相对于彼此的相对优先级。例如，优先级模块624可以为对话对象分配最高优先级值。其它对象的优先级值可以相对于对话对象的优先级。因此，如果某一时间段内在音频流中不存在对话对象，则其它对象可以具有相对较高的优先级。

图7示出了自适应成流过程700的实施例。诸如系统600之类的上述任意系统可以实现自适应成流过程700。自适应成流过程700有利于成流资源的有效使用。

可以由上述优先级模块624执行块702至708。在块702处，从远程计算机接收针对音频内容的请求。例如，用户系统可以向内容服务器发送请求。在块704处，接收与远程计算机系统的资源相关的计算资源信息。该计算资源信息可以描述用户系统的各种可用资源，并且可以与音频内容请求一起提供。在块726处，还接收与可用网络资源相关的网络资源信息。网络资源监视器626可以获得该网络资源信息。

在块708处，至少部分地基于计算机和/或网络资源信息设置优先级阈值。在一个实施例中，当计算和网络资源相对较多时，优先级模块624建立较低阈值(例如，以允许流中较低优先级的对象)。当计算或网络资源相对少时，优先级模块624可以建立较高阈值(例如，以允许流中较高优先级的对象)。

可以由面向对象编码器612执行块710至714。在判决块710处，对于所请求音频内容中的给定对象，确定针对该对象的优先级值是否满足先前建立的阈值。如果是，则在块712处，将对象添加到音频流中。否则在一些实施例中，不将对象添加到音频流中，从而有利地节约了网络和/或计算资源。

在块714处，还确定是否还有附件对象要添加到流中。如果是，则过程700循环返回到块710。否则，在块716处，例如通过音频通信模块628向远程计算系统传输音频流。

在一些实现中，可以修改过程700，以从预编码的音频流中去除对象，而不是匆忙地对音频流进行组装。例如，在块710处，如果给定对象具有不满足阈值的优先级，则在块712处，从音频流中去除该对象。因此，内容创建者可以向内容服务器提供具有各种对象的音频流，以及内容服务器处的自适应成流模块可以基于对象的优先级动态地去除一些对象。因此，选择用于成流的音频对象可以包括添加对象至流中，从流中去除对象等。

图8示出了自适应再现过程800的实施例。诸如系统600之类的上述任意系统可以实现自适应再现过程800。自适应再现过程800有利于对成流资源的有效使用。

在块802处，用户系统的再现器接收具有多个音频对象的音频流。例如，自适应再现器642可以接收音频对象。在块804处，访问回放环境信息。可以通过自适应再现器642的计算资源监视器644访问回放环境信息。该资源信息可以包括关于扬声器配置、计算功率等的信息。

可以由自适应再现器642的再现模块实现块806至810。在块806处，至少部分地基于环境信息选择一个或多个音频对象。再现模块646可以使用对象的优先级值，以选择对象来再现。在另一实施例中，再现模块646并没有基于优先级值选择对象，而是替换地，将对象混合(down-mix)为较少的扬声器声道或使用较少的处理资源，来再现音频。在块808处，再现音频对象，以产生输出音频。在块810处，向一个或多个扬声器输出所再现的音频。

V.音频对象创建实施例

图9-11描述了在例如电影、电视、播客等视听再现的上下文中的示例音频对象创建技术。然而，参考图9至11描述的一些或全部特征也可以在纯音频(例如，不伴随有视频)的上下文中实现。

图9示出了用于面向对象的音频捕获的示例场景900。场景900表示视听场景的简化视图，可以为电影、电视或其它视频构建所述视听场景。在场景900中，两个演员910正在表演，分别通过麦克风920和摄像机930记录他们的声音和动作。为了简化，示出了单个麦克风920，尽管在一些情况下，演员910可以佩戴独立的麦克风。类似地，还可以给道具(未示出)提供独立的麦克风。

为了确定当前场景900中的声源(例如，演员)的位置、速度和其它属性，提供了位置跟踪设备912。这些位置跟踪设备912可以包括GPS设备、运动捕获套装、激光测距仪等。可以将来自位置跟踪设备912的数据和来自麦克风920(或多个麦克风)的数据一起传输给音频对象创建系统110。来自位置跟踪设备912的数据中包括的时间戳可以与从麦克风912和/或摄像机930获得的时间戳相关联，以提供针对每个音频示例的位置数据。该位置数据可以被用于创建具有位置属性的音频对象。类似地，可以从位置跟踪设备912获得速度数据，或者从位置数据获取速度数据。

来自位置跟踪设备912的位置数据(例如，GPS获得的纬度和经度)可以被直接用作位置数据或可以被翻译成坐标系。例如，三维笛卡儿坐标940(x、y和z)可以被用于跟踪音频对象的位置。也可以使用非笛卡儿坐标的坐标系，例如球面坐标或圆柱坐标。在一个实施例中，坐标系940的原点可以是摄像机930。为了利于这种结构，摄像机930还可以包括位置跟踪设备912，以确定其相对于音频对象的位置。因此，即使摄像机930的位置改变，场景900中的音频对象的位置仍然是相对于摄像机930的位置。

还可以在视听作品的后期制作期间在音频对象上应用位置数据。对于动画作品，动画对象(例如人物)的坐标可能对于内容创建者而言是已知的。这些坐标可以自动地与每个动画对象产生的音频相关联，以创建音频对象。

图10示意性地示出了用于面向对象的音频捕获的系统1000，其可以实现以上参考图9描述的特征。在系统1000中，向对象创建模块1014提供声源位置数据1002和麦克风数据1006。对象创建模块1014可以包括上述对象创建模块114A、114B的所有特征。如以上参考图9所描述的，对象创建模块1014可以基于时间戳1004、1008将针对给定声源的声源位置数据1002与麦克风数据1006相关联。

此外，对象创建模块1014包括对象链接器1020，其可以链接对象或将对象关联在一起。一些音频对象可能彼此内在相关，因此可以通过对象链接器1020自动地链接。所链接的对象将通过下文所详细描述的方式被一起再现。

对象可以彼此内在相关，因为对象与相同高度等级的对象相关。换句话说，对象创建模块1014可以形成对象的层级，该层级包括父对象和子对象，该子对象与父对象相关，并且是父对象的内在性质。按照这种方式，音频对象可以从计算机程序语言中借用一些面向对象的原理。具有子对象的父对象的示例是乐队。乐队可以具有与不同组的乐器(例如长号、长笛、竖笛等)相对应的若干分组。使用对象创建模块1014的内容创建者可以将乐队指派为父对象，而将每个分组指派为子对象。此外，内容创建者还可以将独立的乐队成员指派为分组对象的子对象。对象层级的复杂度(包括层级中层的数目)可以由内容创建者建立。

如上所述，子对象可以继承其父对象的性质。因此，子对象可以继承其父对象的一些或全部元数据。在一些情况下，子对象还可以继承与其父对象相关联的一些或全部音频信号数据。子对象可以修改这些元数据和/或音频信号数据中的一部分或全部。例如，子对象可以修改从父对象继承的位置属性，使得子对象和父对象具有不同的位置元数据，但是具有其它类似的元数据。

还可以将子对象的位置表示为相对于父对象的位置的偏移，或者可以从父对象的位置中得到子对象的位置。参考乐队的示例，乐队的分组可以具有位置，该位置是相对于乐队位置的偏移。当乐队改变位置时，表示乐队的分组的子对象可以基于偏移和父乐队的位置自动地更新其位置。按照这种方式，具有不同的位置偏移的乐队的不同分组可以一起移动。

子对象与父对象之间的继承关系可以导致产生子对象与父对象之间的公共元数据。这种元数据上的重叠可以被上述任意面向对象的编码器采用，以优化或减少音频流中的数据。在一个实施例中，面向对象编码器可以通过替代与父对象的元数据相关的冗余元数据来从子对象中去除冗余元数据。同样地，如果冗余音频信号数据对于子对象和父对象而言是公共的，则面向对象的编码器可以减少或消除所述冗余音频信号数据。这些技术只是多种优化技术的示例，其中面向对象编码器可以执行多种优化技术，以减少或消除音频流中的冗余数据。

此外，对象创建模块1014的对象链接器1020可以将子对象和父对象链接在一起。对象链接器1020可以通过创建两个对象之间的关联来执行这种链接，其中可以在两个对象的元数据中反映所述关联。对象链接器1020可以将该关联存储在对象数据储存库1016中。此外，在一些实施例中，即使当对象不具有父子关系时，内容创建者也可以例如将对象手动地链接在一起。

当再现器接收到两个链接的对象时，再现器可以选择将两个对象分离地或一起再现。因此，例如，再现器可以将乐队再现为关于多个扬声器的音频对象的声场，而非将乐队再现为关于一个扬声器的单点声源。例如，当乐队在视频设备中移动时，再现器可以移动声场通过扬声器。

更一般地，再现器可以各种方式解释链接信息。例如，再现器可以再现链接对象在不同时间彼此延迟地处于相同扬声器上，或者同时处于不同扬声器上等。再现器还可以再现心理声学上确定的空间中不同点处的链接对象，以向听众提供链接对象处于听众头部周围不同点的印象。因此，例如，再现器可以使得长号分组似乎出现在听众的左方，而竖笛出现在听众的右方。

图11示出了用于面向对象的音频捕获的过程1100的实施例。诸如系统1000之类的本文所描述的任意系统可以实现过程1100。例如，对象创建模块1014的对象链接器1020可以实现过程1100。

在块1102处，接收针对第一和第二声源的音频和位置数据。可以使用麦克风获得音频数据，同时可以使用以上参考图9描述的任意技术来获得位置数据。

在块1104处，创建针对第一声源的第一音频对象。类似地，在块1106处，创建针对第二声源的第二音频对象。在块1108处，创建第一与第二声源之间的关联。对象链接器1020可以基于两个对象是否在对象层级中相关联而自动地创建所述关联。此外，对象链接器1020可以基于与对象相关联的其它元数据(例如，任意两种类似属性)自动地创建关联。在块1110中，将关联存储在计算机存储器中。

VI.术语

根据实施例，可以以不同的顺序执行本文所描述的任意算法的一些动作、事件或功能，可以一起添加、合并或省去本文所描述的任意算法的一些动作、事件或功能(例如，并非所有描述的动作或事件对于算法的实践而言都是必要的)。此外，在一些实施例中，可以例如通过多线程处理、中断处理或多处理器或处理器核心或在其它并行体系结构上并发地执行动作或事件，而非顺序地执行。

可以将结合本文公开的实施例描述的各种说明性逻辑块、模块和算法步骤实现为电子硬件、计算机软件或其结合。为了清楚地说明硬件和软件的可互换性，上文总体上已经从功能方面描述了各种说明性部件、块、模块和步骤。将这些功能实现为硬件还是软件取决于具体应用和施加至整个系统上的设计约束。对于每个具体应用，可以不同的方式实现所描述的功能，但是这种实现决策不应该解释为背离本公开的范围。

结合本文公开的实施例描述的各种说明性逻辑块和模块可以通过如下的机器来实现或执行：设计成执行本文所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑电路、分立硬件部件、或其任意组合。通用处理器可以是微处理器，但是备选地，处理器可以是控制器、微控制器或状态机、其组合等。处理器还可以被实现为计算设备的组合(例如，DSP和微处理器的组合)、多个微处理器、结合DSP核心的一个或多个微处理器、或任意其它这种配置。

结合本公开的实施例来描述的方法、过程或算法的步骤可以以硬件、处理器执行的软件模块或其组合来直接实现。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆除式盘、CD-ROM或现有技术中已知的任意其它形式的计算机可读存储介质中。示例存储介质可以与处理器耦合，使得处理器可以从存储介质读取信息，以及将信息写入存储介质。备选地，存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。ASIC可以位于用户终端中。备选地，处理器和存储介质可以作为用户终端中的分立部件。

本文使用的条件语言，其中例如“可能”、“能够”、“可以”、“等等”等，除非特别声明或在使用时结合上下文来理解，否则一般旨在表示某些实施例包括而其它实施例没有包括的一些特征、元件和/或状态。因此，这种条件语言一般并非旨在暗示以任意方式需要针对一个或多个实施例的特征、元件和/或状态，或者暗示在具有或没有发明人输入或提示的情况下，一个或多个实施例有必要包括下述逻辑：用于决定这些特征、元件和/或状态是否应该被包括在任意特定实施例中或者在任意特定实施例中被执行。

尽管以上的详细描述已经示出、描述和指出了所应用到各种实施例的新颖特征，但是应该理解，可以在不背离本公开的精神的情况下，对所示出的设备或算法进行各种形式和细节上的省略、替换和改变。应认识到，可以以如下形式实现本文描述的本发明的一些实施例：没有提供本文所述的全部特征和益处，可以独立于一些特征而使用或实践其它特征。本文所公开的一些发明的范围通过所附权利要求而非上述描述来指示。落在权利要求的等同物的意思和范围内的所有改变应该被包括在权利要求的范围内。

Claims

1.一种产生面向对象的音频流的方法，所述方法包括：

选择音频对象以在音频流中传输，其中音频对象包括音频信号数据和对象元数据，对象元数据包括一个或多个对象属性；

组装包括对象元数据的对象报头；

提供包括音频信号数据的音频有效载荷；

利用一个或多个处理器组合对象报头和音频有效载荷，以形成音频流的至少一部分；以及

经由网络传输音频流。

2.如权利要求1所述的方法，其中所述传输包括经由网络传输作为单个流的音频流。

3.如权利要求1所述的方法，其中所述一个或多个对象属性包括以下各项中的至少一个或多个：音频对象的位置、音频对象的速度、音频对象的阻碍物、以及与音频对象相关联的环境。

4.如权利要求1所述的方法，其中所述组合包括由多个可变长度的帧形成音频流，其中每个帧的长度至少部分地取决于与每个帧相关联的对象元数据的数量。

5.如权利要求1所述的方法，还包括在经由网络传输音频流之前，压缩音频流。

6.如权利要求1所述的方法，其中音频对象包括静态对象。

7.如权利要求6所述的方法，其中静态对象表示音频的声道。

8.如权利要求6所述的方法，还包括将动态音频对象放置在音频流中，动态音频对象包括被配置为增强静态对象的增强数据。

9.如权利要求1所述的方法，还包括减少音频流中的冗余的对象元数据。

10.一种产生面向对象的音频流的系统，所述系统包括：

面向对象的成流模块，在一个或多个处理器中实现，所述面向对象的成流模块被配置为：

选择对声源加以表示的音频对象，其中音频对象包括音频信号数据和对象元数据，对象元数据包括声源的一个或多个对象属性；

将对象元数据与音频信号数据一起编码，以形成单条面向对象的音频流的至少一部分；以及

经由网络传输面向对象的音频流。

11.如权利要求10所述的系统，其中面向对象的成流模块还被配置为将第二音频对象插入所述面向对象的音频流中，所述第二音频对象只包括第二对象元数据而不包括音频有效载荷。

12.如权利要求11所述的系统，其中所述第二音频对象的所述第二对象元数据包括环境定义数据。

13.如权利要求10所述的系统，其中所述面向对象的成流模块还被配置为通过至少压缩对象元数据和音频信号数据中的一个数据或两个数据，来将对象元数据与音频信号数据一起编码。

14.如权利要求10所述的系统，其中所述声源的所述一个或多个属性包括声源的位置。

15.如权利要求14所述的系统，其中相对于与音频对象相关联的视频的摄像机视角来确定所述声源的位置。

16.如权利要求10所述的系统，其中声源的所述一个或多个属性包括以下各项中的两项或多项：

由音频对象表示的声源的位置；

声源的速度；

声源的方向性；

声源的阻碍物；以及

与声源相关联的环境。

17.如权利要求10所述的系统，其中所述面向对象的成流模块还被配置为减少所述音频流中的冗余的对象元数据。