CN102077580A - 显示控制设备、显示控制方法以及程序 - Google Patents

显示控制设备、显示控制方法以及程序 Download PDF

Info

Publication number
CN102077580A
CN102077580A CN2010800019205A CN201080001920A CN102077580A CN 102077580 A CN102077580 A CN 102077580A CN 2010800019205 A CN2010800019205 A CN 2010800019205A CN 201080001920 A CN201080001920 A CN 201080001920A CN 102077580 A CN102077580 A CN 102077580A
Authority
CN
China
Prior art keywords
content
state
frame
unit
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800019205A
Other languages
English (en)
Other versions
CN102077580B (zh
Inventor
铃木洋贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102077580A publication Critical patent/CN102077580A/zh
Application granted granted Critical
Publication of CN102077580B publication Critical patent/CN102077580B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus

Abstract

本发明涉及一种显示控制设备、显示控制方法以及程序,由此可以提供一种新的缩略图方法。聚类单元611使内容的各个帧聚类成多个聚类中的任一聚类,并且场景分类单元612关于多个聚类的各个聚类,将属于聚类的帧分类成作为在时间上连续的一个或多个帧的组的场景。缩略图创建单元613创建场景的缩略图,并且显示控制单元614在显示设备603上显示该缩略图。

Description

显示控制设备、显示控制方法以及程序
技术领域
本发明涉及一种显示控制设备、显示控制方法以及程序,并且具体地,涉及一种例如通过其可以容易地识别内容的概述的显示控制设备、显示控制方法以及程序。
背景技术
近年来,例如,除了通过电视广播分发的内容之外,大量内容(即,运动图像)还已在诸如YouTube等的互联网站点进行分发。因此,如下技术的重要性得以提高:其使得用户能够容易地识别内容(其中的)的概述,以使得观看和收听内容的用户可以确定各个内容是否值得观看和收听。
关于用于识别内容的概述的技术,存在一种用于显示内容的缩略图的方法。
关于用于显示内容的缩略图的方法,例如,存在如下一种方法:其用于检测内容的图像的预定帧(诸如对于每固定间隔的帧等),通过缩小该帧生成缩略图、以及显示该缩略图。
另外,关于用于显示内容的缩略图的方法,例如,存在如下一种方法:其用于检测在商业和实际节目(在报纸的电视部分列出的节目)之间的切换、在图像中的人或物体之间的切换等作为场景变化,通过缩小在该场景变化紧接之后的帧而生成缩略图,以及显示该缩略图(例如,参见PTL 1)。
另外,关于用于显示内容的缩略图的方法,存在如下一种方法:其用于通过缩小以题目的增量表示其题目(内容)的图像来生成缩略图,以及显示该缩略图(例如,参见PTL 2)。
注意,利用用于显示对于内容图像的每固定间隔的帧的缩略图的方法,可连续地显示相似的缩略图图像。
另外,利用用于检测作为场景变化、以及显示在该场景变化紧接之后的帧的缩略图的方法,需要准备一种用于针对要检测的各个场景变化来检测其场景变化的算法。
具体地,例如,为了检测在商业和实际节目之间的切换作为场景变化,需要为此准备场景变化检测算法,并且为了检测在图像中的人和物体之间的切换作为场景变化,还需要为此准备场景变化检测算法。
另外,利用用于以题目的增量显示缩略图的方法,仅通过以题目的增量形式的缩略图可能难以识别内容的概述。
引用列表
专利文献
PTL 1:日本未审查专利申请公布第2008-312183号
PTL 2:日本未审查专利申请公布第2009-047721号
发明内容
技术问题
如上所述,关于用于显示缩略图的方法,提出了各类的方法,但是考虑到在下文中所期望的要提供的内容的进一步增加,需要提出一种新的缩略图显示方法。
本发明是在考虑到这种情形的情况下而做出的,并且提供了一种新的缩略图显示方法,从而使得能够容易地识别内容的概述。
问题的解决方案
根据本发明的一方面的显示控制设备或程序是一种显示控制设备或者使得计算机用作显示控制设备的程序,该显示控制设备包括:聚类装置,其被配置用于使内容的各个帧进行聚类成多个聚类中的任何聚类;场景分类装置,其被配置用于关于多个聚类中的各个聚类,将属于该聚类的帧分类成作为时间上连续的一个或多个帧的组的场景;缩略图创建装置,其被配置用于创建场景的缩略图;以及显示控制装置,其被配置用于在被配置用于显示图像的显示设备上显示场景的缩略图。
根据本发明的一方面的显示控制方法是利用显示控制设备的、包括如下步骤的显示控制方法:使内容的各个帧聚类成多个聚类中的任一聚类;关于多个聚类中的各个聚类,将属于该聚类的帧分割成作为在时间上连续的一个或多个帧的组的场景;创建场景的缩略图;以及在用于显示图像的显示设备上显示场景的缩略图。
对于本发明的一方面,使内容的各个帧聚类成多个聚类中的任一聚类,并且关于多个聚类中的各个聚类,将属于该聚类的帧分类成作为在时间上连续的一个或多个帧的组的场景。随后,创建场景的缩略图,并且显示场景的缩略图。
注意,显示控制设备可以是单机设备,或者可以是构成单个设备的内部块。
另外,程序可通过经由传输介质进行传输来提供、或者通过记录在记录介质中来提供。
发明的有益效果
根据本发明的一方面,可以容易地识别内容的概述。
附图说明
图1是示出应用了本发明的记录器的实施例的配置示例的框图。
图2是示出内容模型学习单元12的配置示例的框图。
图3是示出HMM(隐马尔可夫模型)的示例的图。
图4是示出HMM的示例的图。
图5是示出HMM的示例的图。
图6是示出HMM的示例的图。
图7是用于描述通过特征量提取单元22进行的特征量提取处理的图。
图8是用于描述内容模型学习处理的流程图。
图9是示出内容结构呈现单元14的配置示例的框图。
图10是用于描述内容结构呈现处理的概述的图。
图11是示出模型图的示例的图。
图12是示出模型图的示例的图。
图13是用于描述内容结构呈现单元14进行的内容结构呈现处理的流程图。
图14是示出摘要生成单元15的配置示例的框图。
图15是示出高亮检测器学习单元51的配置示例的框图。
图16是用于描述高亮标记生成单元65的处理的图。
图17是用于描述通过高亮检测器学习单元51进行的高亮检测器学习处理的流程图。
图18是示出高亮检测单元53的配置示例的框图。
图19是用于描述摘要内容生成单元79生成的摘要内容的示例的图。
图20是用于描述通过高亮检测单元53进行的高亮检测处理的流程图。
图21是用于描述高亮场景检测处理的流程图。
图22是示出剪贴簿生成单元16的配置示例的框图。
图23是示出初始剪贴簿生成单元101的配置示例的框图。
图24是示出用于用户指定模型图上的状态的用户界面的示例的图。
图25是用于描述通过初始剪贴簿生成单元101进行的初始剪贴簿生成处理的流程图。
图26是示出登记剪贴簿生成单元103的配置示例的框图。
图27是用于描述通过登记剪贴簿生成单元103进行的登记剪贴簿生成处理的流程图。
图28是用于描述登记剪贴簿生成处理的图。
图29是示出服务器客户机系统的第一配置示例的框图。
图30是示出服务器客户机系统的第二配置示例的框图。
图31是示出服务器客户机系统的第三配置示例的框图。
图32是示出服务器客户机系统的第四配置示例的框图。
图33是示出服务器客户机系统的第五配置示例的框图。
图34是示出服务器客户机系统的第六配置示例的框图。
图35是示出应用了本发明的记录器的另一实施例的配置示例的框图。
图36是示出内容模型学习单元201的配置示例的框图。
图37是用于描述通过音频特征量提取单元221进行的特征量提取处理的图。
图38是用于描述通过音频特征量提取单元221进行的特征量提取处理的图。
图39是用于描述通过对象特征量提取单元224进行的特征量提取处理的图。
图40是用于描述通过内容模型学习单元201进行的音频内容模型学习处理的流程图。
图41是用于描述通过内容模型学习单元201进行的对象内容模型学习处理的流程图。
图42是示出摘要生成单元204的配置示例的框图。
图43是示出高亮检测器学习单元291的配置示例的框图。
图44是用于描述通过高亮检测器学习单元291进行的高亮检测器学习处理的流程图。
图45是示出高亮检测单元293的配置示例的框图。
图46是用于描述通过高亮检测单元293进行的高亮检测处理的流程图。
图47是示出剪贴簿生成单元203的配置示例的框图。
图48是示出初始剪贴簿生成单元371的配置示例的框图。
图49是示出用于用户指定模型图上的状态的用户界面的示例的图。
图50是示出登记剪贴簿生成单元373的配置示例的框图。
图51是用于描述通过登记剪贴簿生成单元373进行的登记剪贴簿生成处理的流程图。
图52是用于描述登记剪贴簿生成处理的图。
图53是示出应用了本发明的显示系统的实施例的配置示例的框图。
图54是用于描述缩略图显示控制处理的流程图。
图55是示出聚类单元611的配置示例的框图。
图56是示出2D(2维)图的显示示例的图。
图57是示出2D图的另一显示示例的图。
图58是示出2D图的又一显示示例的图。
图59是示出状态显示的显示示例的图。
图60是示出状态显示的另一显示示例的图。
图61是示出2窗格(pane)显示的显示示例的图。
图62是示出5窗格显示的显示示例的图。
图63是示出时间序列显示的显示示例的图。
图64是示出平铺显示(flat display)的显示示例的图。
图65是用于描述在聚类模型是HMM的情况下的聚类模型学习处理的流程图。
图66是用于描述在聚类模型是HMM的情况下的聚类处理的流程图。
图67是示出在HMM被采用作为聚类模型的情况下的图形模型表示聚类的图。
图68是用于描述在聚类模型是新矢量量化模型的情况下的聚类模型学习处理的流程图。
图69是用于描述在聚类模型是新矢量量化模型的情况下的聚类处理的流程图。
图70是示出在新矢量量化模型被采用作为聚类模型的情况下的图形模型表示聚类的图。
图71是用于描述在聚类模型是新GMM(高斯混合模型)的情况下的聚类处理的流程图。
图72是示出在新GMM被采用作为聚类模型的情况下的图形模型表示聚类的图。
图73是示出应用了本发明的计算机的实施例的配置示例的框图。
具体实施方式
<用于高亮场景的信息处理设备>
首先,将关于用于高亮场景的信息处理设备进行描述,该信息处理设备使得能够容易地获得摘要,其中,在该摘要中,收集用户感兴趣的场景作为高亮场景。
例如,关于用于从内容(诸如电影、电视广播节目等)检测高亮场景的高亮场景检测技术,存在利用专家(设计者)的经验和知识的技术、利用使用学习样本的统计学习的技术等。
关于利用专家的经验和知识的技术,基于专家的经验和知识,设计用于检测在高亮场景中发生的事件的检测器、以及用于检测根据该事件定义的场景(事件发生的场景)的检测器。因此,使用这些检测器检测高亮场景。
关于利用采用学习样本的统计学习的技术,需要采用学习样本的、用于检测高亮场景的检测器(高亮检测器)以及用于检测在高亮场景中发生的事件的检测器(事件检测器)。因此,使用这些检测器检测高亮场景。
另外,关于高亮场景检测技术,提取内容的图像或音频特征量,并且使用该特征量检测高亮场景。关于用于检测高亮场景的特征量,一般而言,采用专用于要从其检测高亮场景的内容的类型的特征量。
例如,对于Wang等人以及Duan等人的高亮场景检测技术,通过利用足球场的线、足球轨迹、整个屏幕的运动以及音频MFCC(梅尔频率倒谱系数),从足球比赛视频提取用于检测诸如“吹哨”、“鼓掌”等的事件的高维特征量,并且从这些特征量组合的特征量用于执行诸如“进攻”、“犯规”等的足球比赛场景的检测。
另外,例如,Wang等人提出了一种高亮场景检测技术,其中,根据足球比赛视频设计采用色彩直方图特征量的观看型分类器、采用线检测器的比赛定位标识器、重放标志检测器、体育广播员兴奋度检测器、吹哨检测器等,通过贝叶斯网络对这些的时间关系进行建模,从而构成足球高亮检测器。
关于高亮场景检测技术,另外,例如,对于日本未审查专利申请公布第2008-185626号(在下文中,还称为PTL 1),提出了如下技术:其中,使用用于描述声音(欢呼)形成的特征的特征量来检测内容的高亮场景。
利用以上高亮场景检测技术,可关于属于特定类型的内容检测高亮场景(或事件),但是难以关于属于其它类型的内容检测适当的场景作为高亮场景。
具体地,例如,利用根据PTL 1的高亮场景检测技术,在包括欢呼的场景是高亮场景的规则之下检测高亮场景,但是其中包括欢呼的场景是高亮场景的内容类型受到限制。另外,利用根据PTL 1的高亮场景检测技术,难以检测具有属于如下类型的内容的高亮场景作为对象:其中,没有欢呼的场景是高亮场景。
因此,为了通过根据PTL 1的高亮场景检测技术而执行检测具有属于除特定类型之外的类型的内容的高亮场景作为对象,需要设计特征量以便适合于其类型。另外,需要基于专家的访谈等执行对使用特征量检测高亮场景的规则设计(或事件的定义)。
因此,例如,对于日本未审查专利申请公布第2000-299829号(在下文中,还称为PTL 2),提出了如下方法:其中,设计通过其可使用通常被确定为高亮场景的场景的检测的特征量和阈值,并且通过使用该特征量和阈值的阈值处理检测高亮场景。
然而,近年来,内容变得多样化,获得要用于检测适合于高亮场景的场景而与所有内容无关的一般规则(例如,诸如,特征量、阈值处理的规则等)是极其困难的。
因此,为了检测适合于高亮场景的场景,例如,需要针对各个类型等设计用以检测适于该类型的高亮场景的特征量和规则。然而,甚至在设计出了这样的规则的情况下,也难以检测所谓的不遵循该规则的例外高亮场景。
关于内容(例如,诸如体育比赛,诸如足球比赛的进球场景),可使用专家的知识以高精度设计用以检测一般称为高亮场景的场景的规则。
然而,用户的偏好随用户而大大不同。具体地,例如,存在分别更喜欢“总教练坐在长椅上的场景”、“棒球中投向一垒的突然传杀(pickoff)的场景”、“问答比赛节目的问答场景”等的个别用户。在该情况下,单独设计适于这些用户偏好的各个偏好的规则并且将这些规则包括在用于检测高亮场景的诸如AV(音频视觉)设备的检测系统中是不切实际的。
另一方面,并非是用户观看和收听摘要(其中,收集了根据包括在检测系统中的固定规则而检测到的高亮场景),检测系统学习各个用户的偏好,检测与该偏好匹配的场景(用户感兴趣的场景)作为高亮场景,并且提供其中收集了这样的高亮场景的摘要,从而实现观看和收听内容的所谓的“个性化”,并且扩展了如何欣赏内容的方式。
在考虑到这样的情形的情况下实现了用于高亮场景的信息处理设备,并且允许用户容易地获得收集了用户感兴趣的场景的摘要。
第一,用于高亮场景的信息处理设备是如下信息处理设备,其包括:
特征量提取装置,其被配置用于提取用于关注检测器学习的内容的图像的各个帧的特征量,其中,用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型;
最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,其中,该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,该内容模型是在通过如下处理获得的所述学习之后的状态转移概率模型:提取用于学习的内容的图像的各个帧的特征量,并且使用用于学习的内容的特征量来执行对状态概率转移模型的学习,其中,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;
高亮标记生成装置,其被配置用于根据用户的操作,通过使用表示是否为高亮场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,生成关于用于关注检测器学习的内容的高亮标记序列;以及
高亮检测器学习装置,其被配置用于使用用于学习的标记序列,执行对作为状态转移概率模型的高亮检测器的学习,其中,该用于学习的标记序列是从用于关注检测器学习的内容获得的最大似然状态序列、和高亮标记序列的对。
第二,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其还包括:
高亮检测装置,其被配置用于:提取用于关注高亮检测的内容的图像的各个帧的特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容,
估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,
估计最大似然状态序列,该最大似然状态序列是在将观测到检测标记序列的似然最高的情况下,引起发生状态转移的状态序列,其中,该检测标记序列是在高亮检测器处从用于关注高亮检测的内容获得的最大似然状态序列、和表示是高亮场景或除高亮场景之外的场景的高亮标记的高亮标记序列的对,
基于作为从检测标记序列获得的最大似然状态序列的高亮关系状态序列的各个状态的高亮标记的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,以及
使用高亮场景的帧生成摘要内容,其是用于关注高亮检测的内容的摘要。
第三,用于高亮场景的信息处理设备是用于高亮场景的第二信息处理设备,其中,对于高亮关系状态序列的预定时间点处的状态,在表示是高亮场景的高亮标记的观测概率与表示是除高亮场景之外的场景的高亮标记的观测概率之间的差别大于预定阈值的情况下,高亮检测装置检测与在预定时间点处的状态对应的用于关注高亮检测的内容的帧作为高亮场景的帧。
第四,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其还包括:
剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,
估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,
从内容提取最大似然状态序列的状态中的对应于与用户指示的状态匹配的状态的帧,以及
将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿上。
第五,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其还包括:
状态间距离计算装置,其被配置用于基于从一个状态到另一个状态的状态转移概率,获得从内容模型的一个状态到另一状态的状态间距离;
坐标计算装置,其被配置用于获得作为模型图上的状态的位置坐标的状态坐标,以便减小在作为的二维或三维图(其中布置了内容模型的状态)的模型图上的、从一个状态到另一个状态的欧几里得距离与状态间距离之间的差别;以及
显示控制装置,其被配置用于执行显示控制,用于显示如下模型图:其中,彼此对应的状态被布置在状态坐标的位置中。
第六,用于高亮场景的信息处理设备是用于高亮场景的第五信息处理设备,其中,坐标计算装置获得状态坐标,以便使得与欧几里得距离和状态间距离之间的统计误差成比例的Sammon映射(Sammon Map)误差函数最小化,并且在从一个状态到另一个状态的欧几里得距离大于预定阈值的情况下,将从一个状态到另一个状态的欧几里得距离设置为等于从一个状态到另一个状态的状态间距离的距离,并且执行误差函数的计算。
第七,用于高亮场景的信息处理设备是用于高亮场景的第五信息处理设备,其还包括:
剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,
估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,
从内容提取最大似然状态序列的状态中的对应于与用户指示的模型图上的状态匹配的状态的帧,以及
将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿中。
第八,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其中,通过将帧划分为作为多个小区域的子区域,提取多个子区域的各个子区域的特征量,并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。
第九,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其中,通过组合对应于帧的预定时间内的音频能量、过零率或谱重心的平均值和离差来获得帧的特征量。
第十,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其中,通过检测帧内的对象的显示区域,将帧划分为作为多个小区域的子区域,提取子区域中的对象的显示区域的像素数目与多个子区域的各个子区域中的像素数目的百分比作为特征量,并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。
第十一,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,还包括:
内容模型学习装置,其被配置用于通过使用用于学习的内容的特征量执行状态转移概率模型的学习来生成内容模型。
第十二,一种用于高亮场景的信息处理设备的信息处理方法是利用信息处理设备的、包括如下步骤的信息处理方法:
特征量提取步骤,其布置用于提取用于关注检测器学习的内容的图像的各个帧的特征量,其中,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型;
最大似然状态序列估计步骤,其布置用于估计最大似然状态序列,其中,该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,该内容模型是在通过如下处理获得的所述学习之后的状态转移概率模型:提取用于学习的内容的图像的各个帧的特征量,并且使用用于学习的内容的特征量来执行状态概率转移模型的学习,其中,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;
高亮标记生成步骤,其布置用于根据用户的操作,通过使用表示是否为高亮场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,生成关于用于关注检测器学习的内容的高亮标记序列;以及
高亮检测器学习步骤,其布置用于使用用于学习的标记序列,执行作为状态转移概率模型的高亮检测器的学习,其中,该用于学习的标记序列是从用于关注检测器学习的内容获得的最大似然状态序列、和高亮标记序列的对。
第十三,一种使得计算机用作用于高亮场景的信息处理设备的程序,该信息处理设备包括:
特征量提取装置,其被配置用于提取用于关注检测器学习的内容的图像的各个帧的特征量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型;
最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,其中,该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,该内容模型是在通过如下处理获得的所述学习之后的状态转移概率模型:提取用于学习的内容的图像的各个帧的特征量,并且使用用于学习的内容的特征量来执行状态概率转移模型的学习,其中,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;
高亮标记生成装置,其被配置用于根据用户的操作,通过使用表示是否为高亮场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,生成关于用于关注检测器学习的内容的高亮标记序列;以及
高亮检测器学习装置,其被配置用于使用用于学习的标记序列,执行作为状态转移概率模型的高亮检测器的学习,其中,该用于学习的标记序列是从用于关注检测器学习的内容获得的最大似然状态序列、和高亮标记序列的对。
第十四,用于高亮场景的信息处理设备是如下信息处理设备,其包括:
获得装置,其被配置用于通过如下处理获得高亮检测器:估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列;根据用户的操作,通过使用表示是否为高亮场景的高亮标记来对用于关注检测器学习的内容的各个帧进行标记,来生成关于用于关注检测器学习的内容的高亮标记序列;以及使用用于学习的标记序列,执行作为状态转移概率模型的高亮检测器的学习,该用于学习的标记序列是从用于关注检测器学习的内容获得的最大似然状态序列、和高亮标记序列的对,其中,该内容模型是在通过如下处理获得的所述学习之后的状态转移概率模型:提取用于关注检测器学习的内容的图像的各个帧的特征量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型;提取用于学习的内容的图像的各个帧的特征量,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;以及使用用于学习的内容的特征量,执行状态转移概率模型的学习;
特征量提取装置,其被配置用于提取用于关注高亮检测的内容的图像的各个帧的特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容;
第一最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列;
第二最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大似然状态序列是在高亮检测器中将观测到检测标记序列的似然最高的情况下,引起发生状态转移的状态序列,该检测标记序列是从用于关注高亮检测的内容获得的最大似然状态序列与高亮标记的高亮标记序列之间的对,该高亮标记表示是高亮场景或除高亮场景之外的场景;
高亮场景检测装置,其被配置用于基于高亮关系状态序列的各个状态的高亮标记的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,该高亮关系状态序列是从检测标记序列获得的最大似然状态序列;以及
摘要内容生成装置,其被配置用于使用高亮场景的帧,生成摘要内容,其是用于关注高亮检测的内容的摘要。
第十五,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其中,在高亮关系状态序列的预定时间点处的状态中,在表示是高亮场景的高亮标记的观测概率与表示是除高亮场景之外的场景的高亮标记的观测概率之间的差别大于预定阈值的情况下,高亮场景检测装置检测与预定时间点处的状态对应的用于关注高亮检测的内容的帧作为高亮场景的帧。
第十六,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其还包括:
剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,
估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,
从内容提取最大似然状态序列的状态中的对应于与用户指示的状态匹配的状态的帧,以及
将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿中。
第十七,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其还包括:
状态间距离计算装置,其被配置用于基于从一个状态到另一个状态的状态转移概率,获得从内容模型的一个状态到另一状态的状态间距离;
坐标计算装置,其被配置用于获得作为模型图上的状态的位置坐标的状态坐标,以便减小在作为二维或三维图(其中布置了内容模型的状态)的模型图上、从一个状态到另一个状态的欧几里得距离与状态间距离之间的误差;以及
显示控制装置,其被配置用于执行显示控制,用于显示如下模型图:其中,彼此对应的状态被布置在状态坐标的位置中。
第十八,用于高亮场景的信息处理设备是用于高亮场景的第十七信息处理设备,其中,坐标计算装置获得状态坐标,以便使得与欧几里得距离和状态间距离之间的统计误差成比例的Sammon映射误差函数最小化,以及在从一个状态到另一个状态的欧几里得距离大于预定阈值的情况下,将从一个状态到另一个状态的欧几里得距离设置为等于从一个状态到另一个状态的状态间距离的距离,并且执行误差函数的计算。
第十九,用于高亮场景的信息处理设备是用于高亮场景的第十七信息处理设备,其还包括:
剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,
估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,
从内容提取最大似然状态序列的状态中的对应于与用户指示的模型图上的状态匹配的状态的帧,以及
将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿中。
第二十,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其中,通过将帧划分为作为多个小区域的子区域,提取多个子区域的各个子区域的特征量,并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。
第二十一,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其中,通过组合对应于帧的预定时间内的音频能量、过零率或谱重心的平均值和离差来获得帧的特征量。
第二十二,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其中,通过检测帧内的对象的显示区域,将帧划分为作为多个小区域的子区域,提取子区域中的对象的显示区域的像素数目与多个子区域的各个子区域中的像素数目的百分比作为特征量,并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。
第二十三,用于高亮场景的信息处理设备的信息处理方法是利用信息处理设备的、包括如下步骤的信息处理方法:
获得步骤,其布置用于通过如下处理获得高亮检测器:估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列;根据用户的操作,通过使用表示是否为高亮场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,来生成关于用于关注检测器学习的内容的高亮标记序列;以及使用用于学习的标记序列,执行作为状态转移概率模型的高亮检测器的学习,该用于学习的标记序列是从用于关注检测器学习的内容获得的最大似然状态序列、和高亮标记序列的对,其中,该内容模型是通过如下处理获得的:提取用于关注检测器学习的内容的图像的各个帧的特征量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型;提取用于学习的内容的图像的各个帧的特征量,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;以及使用用于学习的内容的特征量,执行状态转移概率模型的学习;
特征量提取步骤,其布置用于提取用于关注高亮检测的内容的图像的各个帧的特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容;
第一最大似然状态序列估计步骤,其布置用于估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列;
第二最大似然状态序列估计步骤,其布置用于估计最大似然状态序列,该最大似然状态序列是在高亮检测器中将观测到检测标记序列的似然最高的情况下,引起发生状态转移的状态序列,该检测标记序列是从用于关注高亮检测的内容获得的最大似然状态序列、与高亮标记的高亮标记序列之间的对,该高亮标记表示是高亮场景或除高亮场景之外的场景;
高亮场景检测步骤,其布置用于基于高亮关系状态序列的各个状态的高亮标记的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,该高亮关系状态序列是从检测标记序列获得的最大似然状态序列;以及
摘要内容生成步骤,其布置用于使用高亮场景的帧,生成摘要内容,其是用于关注高亮检测的内容的摘要。
第二十四,一种使得计算机用作用于高亮场景的信息处理设备的程序,该信息处理设备包括:
获得装置,其被配置用于通过如下处理获得高亮检测器:估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列;根据用户的操作,通过使用表示是否为高亮场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,来生成关于用于关注检测器学习的内容的高亮标记序列;以及使用用于学习的标记序列,执行作为状态转移概率模型的高亮检测器的学习,该用于学习的标记序列是从用于关注检测器学习的内容获得的最大似然状态序列、和高亮标记序列的对,其中,该内容模型是在通过如下处理获得的所述学习之后的状态转移概率模型:提取用于关注检测器学习的内容的图像的各个帧的特征量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型;提取用于学习的内容的图像的各个帧的特征量,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;以及使用用于学习的内容的特征量,执行状态转移概率模型的学习;
特征量提取装置,其被配置用于提取用于关注高亮检测的内容的图像的各个帧的特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容;
第一最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列;
第二最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大似然状态序列是在高亮检测器中将观测到检测标记序列的似然最高的情况下,引起发生状态转移的状态序列,该检测标记序列是从用于关注高亮检测的内容获得的最大似然状态序列、与高亮标记的高亮标记序列之间的对,该高亮标记表示是高亮场景或除高亮场景之外的场景;
高亮场景检测装置,其被配置用于基于高亮关系状态序列的各个状态的高亮标记的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,该高亮关系状态序列是从检测标记序列获得的最大似然状态序列;以及
摘要内容生成装置,其被配置用于使用高亮场景的帧,生成摘要内容,其是用于关注高亮检测的内容的摘要。
[具有应用了本发明的信息处理设备的记录器的实施例]
图1是示出应用了根据本发明的信息处理设备的记录器的实施例的配置示例的框图。
图1中的记录器是例如HD(硬盘)记录器等,并且可以视频记录(记录)(存储)各类内容,诸如电视广播节目、经由诸如互联网等的网络提供的内容、通过摄像机等拍摄的内容等。
具体地,在图1中,记录器包括内容存储单元11、内容模型学习单元12、模型存储单元13、内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元15。
内容存储单元11存储(记录)例如诸如电视广播节目的内容。将内容存储到内容存储单元11构成该内容的记录,并且例如根据用户的操作而播放视频记录的内容(存储在内容存储单元11中的内容)。
内容模型学习单元12执行学习(统计学习),用于在预定特征量空间中以自组织方式构造存储在内容存储单元11中的内容,以获得表示内容结构(时间空间结构)的模型(在下文中,还称为内容模型)。内容模型学习单元12将作为学习结果获得的内容模型提供给模型存储单元13。
模型存储单元13存储从内容模型学习单元12提供的内容模型。
内容结构呈现单元14使用存储在内容存储单元11中的内容以及存储在模型存储单元13中的内容模型,来创建并呈现表示内容结构的稍后描述的模型图。
摘要生成单元15使用存储在模型存储单元13中的内容模型,来从存储在内容存储单元11中的内容检测用户感兴趣的场景作为高亮场景。随后,摘要生成单元15生成收集了高亮场景的摘要。
剪贴簿生成单元16使用存储在模型存储单元13中的内容模型来检测用户感兴趣的场景,并且生成从该场景收集的剪贴簿。
注意,通过摘要生成单元15进行的摘要生成以及通过剪贴簿生成单元16进行的剪贴簿生成在检测用户感兴趣的场景作为结果方面是共同的,但是其检测方法(算法)不同。
另外,图1中的记录器可在不设置内容结构呈现单元14和剪贴簿生成单元16等的情况下来配置。
具体地,例如,在学习的内容模型已存储在模型存储单元13中的情况下,记录器可在不设置内容模型学习单元12的情况下来配置。
另外,例如,关于内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元16,记录器可通过仅设置这些中的一个或两个块来配置。
现在,假设要存储在内容存储单元11中的内容的数据包括图像、音频以及必要的文本(字幕)的数据(流)。
另外,现在,假设在内容的数据之中,仅图像的数据被用于内容模型学习处理以及采用内容模型的处理。
然而,对于内容模型学习处理以及采用内容模型的处理,除图像的数据外,还可采用音频或文本的数据,并且在该情况下,可以提高处理的精度。
另外,对于内容模型学习处理以及采用内容模型的处理,可仅采用音频的数据而非图像的数据。
[内容模型学习单元12的配置示例]
图2是示出图1中的内容模型学习单元12的配置示例的框图。
内容模型学习单元12提取用于学习的内容的图像的各个帧的特征量,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定。另外,内容模型学习单元12使用用于学习的内容的特征量来执行状态转移概率模型的学习。
具体地,内容模型学习单元12包括学习内容选择单元21、特征量提取单元22、特征量存储单元26以及学习单元27。
学习内容选择单元21从存储在内容存储单元11中的内容之中,选择要用于状态转移概率模型的学习的内容作为用于学习的内容,并且将其提供给特征量提取单元22。
这里,学习内容选择单元21从存储在内容存储单元11中的内容之中,选择例如属于预定类别的一个或多个内容作为用于学习的内容。
表述“属于预定类别的内容”指的是内容具有其中隐藏的共同结构,例如,诸如相同类型的节目、系列节目、每周或每天或周期地广播的节目(具有相同标题的节目)等。
例如,可采用所谓的粗分类(诸如,体育节目、新闻节目等)作为类型,但是例如,所谓的细分类(诸如,足球比赛节目、棒球比赛节目等)是优选的。
另外,例如,也可将足球比赛节目分类为属于随频道(广播站)而不同的类别的内容。
现在,假设已在图1的记录器中设置了采用何种类别作为内容的类别。
另外,可以从例如元数据识别存储在内容存储单元11中的内容的类别,该元数据诸如是伴随电视广播中的节目一起传送的节目的类型或标题、互联网上的站点提供的节目的信息等。
特征量提取单元22将来自学习内容选择单元21的用于学习的内容解复用成图像数据和音频数据,提取图像的各个帧的特征量,并且将其提供给特征量存储单元26。
具体地,特征量提取单元22包括帧划分单元23、子区域特征量提取单元24以及连接单元25。
来自学习内容选择单元21的、用于学习的内容的图像的各个帧被按时间序列提供给帧划分单元23。
帧划分单元23顺序取从学习内容选择单元21按时间序列提供的用于学习的内容的帧作为关注帧。随后,帧划分单元23将关注帧划分成作为多个小区域的子区域,并且将其提供给子区域特征量提取单元24。
子区域特征量提取单元24从来自帧划分单元23的关注帧的各个子区域提取子区域的特征量(在下文中,还称为“子区域特征量”),并且将其提供给连接单元25。
连接单元25组合来自子区域特征量提取单元24的关注帧的子区域的子区域特征量,并且将组合的结果提供给特征量存储单元26作为关注帧的特征量。
特征量存储单元26存储从特征量提取单元22(的连接单元25)按时间序列提供的用于学习的内容的各个帧的特征量。
学习单元27使用存储在特征量存储单元26中的用于学习的内容的各个帧的特征量,来执行状态转移概率模型的学习。另外,学习单元27取学习后的状态转移概率模型作为内容模型,并且以与用于学习的内容的类别相关的方式将其提供给模型存储单元13。
[状态转移概率模型]
参照图3至图6,将关于图2中的学习单元27学习的状态转移概率模型进行描述。
关于状态转移概率模型,例如,可采用HMM(隐马尔可夫模型)。在采用HMM作为状态转移概率模型的情况下,例如,通过Baum-Welch(鲍姆-韦尔奇)重估计方法执行HMM的学习。
图3是示出从左到右型的HMM的示例的图。
从左到右型的HMM是状态排列在从左到右方向的直线上的HMM,并且可以执行自转移(从某一状态到该状态的转移)以及从某一状态到位于该状态右侧的状态的转移。从左到右型的HMM用于例如音频识别等。
图3中的HMM包括三个状态s1、s2和s3,并且允许执行自转移以及从某一状态到其邻近右侧状态的转移作为状态转移。
注意,HMM由状态si的初始概率πi、状态转移概率aij以及将从状态si观测到预定观测值o的观测概率bi(o)来规定。
这里,初始概率πi是状态si是初始状态(第一状态)的概率,并且对于从左到右型的HMM,最左侧状态si的初始概率πi被设置为1.0,而另一状态si的初始概率πi被设置为0.0。
状态转移概率aij是进行从状态si转移到状态sj的转移的概率。
观测概率bi(o)是在到状态si的状态转移时将从状态si观测到观测值o的概率。关于观测概率bi(o),在观测值o是离散值的情况下,采用作为概率的值(离散值),而在观测值o是连续值的情况下,采用概率分布函数。关于概率分布函数,例如,可采用由平均值(平均矢量)和离差(协方差矩阵)所定义的高斯分布等。
图4是示出遍历(Ergodic)型HMM的示例的图。
遍历型HMM是关于状态转移没有限制的HMM,即,能够进行从任意状态si到任意状态sj的状态转移的HMM。
图4中的HMM包括三个状态s1、s2和s3,并且允许执行任意状态转移。
遍历型HMM是其中状态转移的灵活性最高的HMM,但是在状态数目较大的情况下,其可取决于HMM的参数(初始概率πi、状态转移概率aij以及观测概率bi(o))的初始值而收敛于局部最小值,这阻止了获得适当的参数。
因此,我们将采用“自然界中的大部分现象以及创建视频内容的摄影技巧或节目配置可以利用诸如小型世界网络的稀疏(sparse)连接来表示”的假设,并且采用其中状态转移被限制为稀疏结构的HMM用以在学习单元27进行学习。
这里,稀疏配置不是可以进行从某一状态到任意状态的状态转移的、诸如遍历型HMM的密集状态转移,而是其中从某一状态可以进行状态转移而到达的状态极其有限的配置(稀疏状态转移的结构)。
现在,假设即使对于稀疏结构,也存在至少一个到另一状态的状态转移,并且还存在自转移。
图5是示出作为具有稀疏结构的HMM的二维邻近约束HMM的示例的图。
对于图5的A和图5的B中的HMM,除了具有稀疏结构的HMM之外,还施加了如下限制:其中,构成HMM的状态以栅格形状布置在二维平面上。
这里,对于图5的A中的HMM,到另一状态的状态转移限于水平邻近状态和垂直邻近状态。对于图5的B中的HMM,到另一状态的状态转移限于水平邻近状态、垂直邻近状态以及斜线邻近状态。
图6是示出除了二维邻近约束HMM之外的具有稀疏结构的HMM的示例的图。
具体地,图6中的A示出了根据三维栅格限制的HMM的示例。图6中的B示出了根据二维随机重布置限制的HMM的示例。图6中的C示出了根据小型世界网络的HMM的示例。
对于图2中的学习单元27,使用存储在特征量存储单元26中的图像的(从帧提取的)特征量,通过Baum-Welch重估计方法来执行具有图5和图6中示出的稀疏结构的、包括例如100至几百个状态的HMM的学习。
HMM(其是作为在学习单元27处的学习结果而获得的内容模型)是通过仅使用内容的图像(视觉)的特征量的学习而获得的,因此其可被称为视觉HMM。
这里,用于HMM的学习的、存储在特征量存储单元26中的特征量是作为连续值的矢量,并且关于HMM的观测概率bi(o),采用概率分布函数。
注意,例如,在Laurence Rabiner和Biing-Hwang Juang合著的“Fundamentals of Speech Recognition(First and Second)(语音识别的基础(上、下)),NTT ADVANCED TECHNOLOGY CORPORATION(NTT先进科技公司)”以及本申请人先前提出的日本专利申请第2008-064993号中描述了HMM。另外,例如,在本申请人先前提出的日本专利申请第2008-064994号中描述了具有稀疏结构的HMM或遍历型HMM的使用。
[特征量的提取]
图7是用于描述通过图2中的特征量提取单元22进行的特征量提取处理的图。
对于特征量提取单元22,将来自学习内容选择单元21的用于学习的内容的图像的各个帧按时间序列提供给帧划分单元23。
帧划分单元23顺序取从学习内容选择单元21按时间序列提供的用于学习的内容的帧作为关注帧,将关注帧划分为多个子区域Rk,并且将其提供给子区域特征量提取单元24。
这里,在图7中,关注帧被等分为16个子区域R1、R2、...、R16,其中水平×垂直是4×4。
注意,在将一个帧划分为子区域Rk时的子区域Rk的数目不限于16(4×4)。具体地,一个帧可以被划分为例如20(5×4)个子区域Rk、25(5×5)个子区域Rk等。
另外,在图7中,一个帧被划分(等分)为具有相同尺寸的子区域Rk,但是子区域的尺寸可不相同。具体地,例如,可进行如下布置:其中,帧的中心部分被划分为具有小尺寸的子区域,而帧的周围部分(与图像帧相邻的部分等)被划分为具有大尺寸的子区域。
子区域特征量提取单元24(图2)提取来自帧划分单元23的关注帧的各个子区域Rk的子区域特征量fk=FeatExt(Rk),并且将其提供给连接单元25。
具体地,子区域特征量提取单元24使用子区域Rk的像素值(例如,RGB分量、YUV分量等),获得子区域Rk的全局特征量作为子区域特征量fk
这里,以上“子区域Rk的全局特征量”是指例如诸如直方图的特征量,该特征量例如仅使用像素值而不使用构成子区域Rk的像素的位置信息来以相加方式计算。
关于全局特征量,例如可采用称为GIST的特征量。例如,在A.Torralba,K.Murphy,W.Freeman,M.Rubin,“Context-based vision system for place and object recognition(用于位置和对象识别的基于上下文的视觉系统)”,IEEE Int.Conf.Computer Vision,vol.1,no.1,pp.273-280,2003中描述了GIST的细节。
注意,全局特征量不限于GIST。具体地,全局特征量应该为关于诸如局部位置、亮度、视点等的视觉变化健壮(robust)的(健壮)特征量(以便吸收改变)。这种特征量的示例包括HLCA(高阶局部自动相关)、LBP(局部二进制模式)以及色彩直方图。
例如,在N.Otsu,T.Kurita,“A new scheme for practical flexible and intelligent vision systems(用于实际灵活智能视觉系统的新方案)”,Proc.IAPR Workshop on Computer Vision,pp.431-435,1988中描述了HLCA的细节。例如,在Ojala T,Pietikainen M以及Maenpaa T,“Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns(利用局部二进制模式的多分辨率灰度和旋转不变纹理分类)”,IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987(更准确地,Pietikainen和Maenpaa中的“a”是在“a”上添加了“..”的字符)中描述了LBP的细节。
这里,诸如以上GIST、LBP、HLCA、色彩直方图等的全局特征量具有维数较大的倾向,并且还具有维度之间的相关性较高的倾向。
因此,子区域特征量提取单元24(图2)可在从子区域Rk提取GIST等之后,执行诸如GIST等的基本分量分析(PCA(基本分量分析))。随后,对于子区域特征量提取单元24,压缩(限制)诸如GIST等的维数,以使得累积贡献率基于PCA的结果而变成一定程度的高值(例如等于或大于95%等的值),并且可把压缩结果视为子区域特征量。
在此情况下,投射到诸如GIST等的维数被压缩的PCA空间中的投射矢量变为诸如GIST等的维数被压缩的压缩结果。
连接单元25(图2)连接来自子区域特征量提取单元24的关注帧的子区域R1至R16的子区域特征量f1至f16,并且将连接结果提供给特征量存储单元26作为关注帧的特征量。
具体地,连接单元25通过连接来自子区域特征量提取单元24的子区域特征量f1至f16,来生成具有子区域特征量f1至f16作为分量的矢量,并且将该矢量提供给特征量存储单元26作为关注帧的特征量Ft
这里,在图7中,时间点t处的帧(帧t)是关注帧。“时间点t”是例如以内容的前端作为参考的时间点,并且对于该实施例,时间点t处的帧指的是从内容的前端起的第t帧。
对于图2中的特征量提取单元22,从前端开始顺序取用于学习的内容的各个帧作为关注帧,并且如上所述,获得特征量Ft。随后,将用于学习的内容的各个帧的特征量Ft按时间序列(在保持时间前后关系的状态下)从特征量提取单元22提供并存储到特征量存储单元26。
如上所述,对于特征量提取单元22,获得子区域Rk的全局特征量作为子区域特征量fk,并且获得具有子区域特征量fk作为分量的矢量作为帧的特征量Ft
因此,帧的特征量Ft相对于局部变化(在子区域内发生的变化)是健壮的,但相对于作为整个帧的模式布局中的变化成为可辨别的(用于敏锐地区分差别的特性)特征量。
根据这样的特征量Ft,可适当地确定帧之间的场景(内容)的相似性。例如,只要场景包括在帧的上侧的“天空”、在中间的“大海”、以及在屏幕的下侧的“海滩”,就满足“海滩”的场景,因此,人存在于“海滩”的什么部分、云存在于“天空”的什么部分等与场景是否是“海滩”的场景无关。从这样的观点来看,特征量Ft适合于确定场景的相似性(以对场景进行分类)。
[内容模型学习处理]
图8是用于描述图2中的内容模型学习单元12执行的处理(内容模型学习处理)的流程图。
在步骤S11中,学习内容选择单元21从存储在内容存储单元11中的内容之中,选择属于预定类别的一个或多个内容作为用于学习的内容。
具体地,例如,学习内容选择单元21从存储在内容存储单元11中的内容之中,选择尚未被选择作为用于学习的内容的任意内容作为用于学习的内容。
另外,学习内容选择单元21识别被选择作为用于学习的内容的一个内容的类别,并且在属于该类别的另一内容存储在内容存储单元11中的情况下,学习内容选择单元21还选择该内容(另一内容)作为用于学习的内容。
学习内容选择单元21将用于学习的内容提供给特征量提取单元22,并且处理从步骤S11进行到步骤S12。
在步骤S12中,特征量提取单元22的帧划分单元23从来自学习内容选择单元21的用于学习的内容之中,选择尚未被选择作为用于关注学习的内容(在下文中,还称为“关注内容”)的、用于学习的内容之一作为关注内容。
随后,处理从步骤S12进行到步骤S13,其中,帧划分单元23从关注内容的帧之中选择尚未被选择作为关注帧的、时间上最在前的帧作为关注帧,并且处理进行到步骤S14。
在步骤S14中,帧划分单元23将关注帧划分为多个子区域,并将其提供给子区域特征量提取单元24,并且处理进行到步骤S15。
在步骤S15中,子区域特征量提取单元24提取来自帧划分单元23的多个子区域的各个子区域的子区域特征量,并将其提供给连接单元25,并且处理进行到步骤S16。
在步骤S16中,连接单元25通过对来自子区域特征量提取单元24的、构成关注帧的多个子区域的各个子区域的子区域特征量进行连接,来生成关注帧的特征量,并且处理进行到步骤S17。
在步骤S17中,帧划分单元23确定关注内容的所有帧是否都已被选择作为关注帧。
在步骤S17中确定在关注内容的帧中存在尚未被选择作为关注帧的帧的情况下,处理返回至步骤S13,并且此后重复同一处理。
另外,在步骤S17中确定关注内容的所有帧都已被选择作为关注帧的情况下,处理进行到步骤S18,其中,连接单元25将关于关注内容获得的关注内容的各个帧的特征量(的时间序列)提供并存储到特征量存储单元26。
随后,处理从步骤S18进行到步骤S19,其中,帧划分单元23确定来自学习内容选择单元21的所有用于学习的内容是否都已被选择作为关注内容。
在步骤S19中确定在用于学习的内容中存在尚未被选择作为关注内容的用于学习的内容的情况下,处理返回至步骤S12,并且此后重复同一处理。
另外,在步骤S19中确定所有用于学习的内容都已被选择作为关注内容的情况下,处理进行到步骤S20,其中,学习单元27使用存储在特征量存储单元26中的用于学习的内容的特征量(各个帧的特征量的时间序列)来执行HMM的学习。
随后,学习单元27以与用于学习的内容的类别相关的方式,将学习后的HMM输出(提供)给模型存储单元13作为内容模型,并且结束内容模型学习处理。
注意,内容模型学习处理可在任意定时开始。
根据以上内容模型学习处理,对于HMM,以自组织的方式获取隐藏在用于学习的内容中的内容结构(例如,通过节目配置、摄影技巧等创建的配置)。
结果,作为通过内容模型学习处理而获得的内容模型的HMM的各个状态对应于通过学习获取的内容结构的元素,并且状态转移表示内容结构的元素之间的时间转移。
随后,内容模型的状态以集合方式表示在特征量空间(在特征量提取单元22(图2)处提取的特征量的空间)中具有接近的空间距离并且还具有相似的时间前后关系的帧组(即,“相似场景”)。
这里,例如,在内容为问答比赛节目的情况下,通常,设置提问、给出提示、执行者回答以及宣布正确答案的流程被视为节目的基本流程,并且通过重复该基本流程来进行问答比赛节目。
以上节目的基本流程相当于内容结构,并且设置提问、给出提示、执行者回答以及宣布正确答案的每个相当于内容结构的元素。
另外,例如,从设置提问前进到给出提示等相当于内容结构的元素之间的时间转移。
[内容结构呈现单元14的配置示例]
图9是示出图1中的内容结构呈现单元14的配置示例的框图。
如上所述,内容模型获取隐藏在用于学习的内容中的内容结构,而内容结构呈现单元14以视觉方式向用户呈现该内容结构。
具体地,内容结构呈现单元14包括内容选择单元31、模型选择单元32、特征量提取单元33、最大似然状态序列估计单元34、状态对应(state-enabled)图像信息生成单元35、状态间距离计算单元36、坐标计算单元37、图绘制单元38以及显示控制单元39。
例如,根据用户的操作等,内容选择单元31从存储在内容存储单元11中的内容之中,选择要使其结构可视化的内容作为用于关注呈现的内容(在下文中,还简称为“关注内容”)。
随后,内容选择单元31将关注内容提供给特征量提取单元33和状态对应图像信息生成单元35。另外,内容选择单元31识别关注内容的类别,并将其提供给模型选择单元32。
模型选择单元32从存储在模型存储单元13中的内容模型之中,选择与来自内容选择单元31的关注内容的类别匹配的类别的内容模型(与关注内容的类别相关的内容模型)作为关注模型。
随后,模型选择单元32将关注模型提供给最大似然状态序列估计单元34和状态间距离计算单元36。
特征量提取单元33以与图2中的特征提取单元22相同的方式,提取从内容选择单元31提供的关注内容(的图像)的各个帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元34。
例如,根据维特比(Viterbi)算法,最大似然状态序列估计单元34估计最大似然状态序列(构成所谓的维特比路径的状态序列),该最大似然状态序列是在来自模型选择单元32的关注模型中将观测到来自特征量提取单元33的关注内容的特征量(的时间序列)的似然最高的情况下,引起状态转移的状态序列。
随后,最大似然状态序列估计单元34将在关注模型中观测到关注内容的特征量的情况下的最大似然状态序列(在下文中,还称为“与关注内容对应的关注模型的最大似然状态序列)提供给状态对应图像信息生成单元35。
现在,假设以关于关注内容的关注模型的最大似然状态序列的前端作为参考的时间点t的状态(从构成最大似然状态序列的顶端起的第t状态)被表示为s(t),另外关注内容的帧数被表示为T。
在此情况下,关于关注内容的关注模型的最大似然状态序列是T个状态s(1)、s(2)、...、s(T)的序列,并且其第t状态(时间点t处的状态)s(t)对应于关注内容的时间点t处的帧(帧t)。
另外,如果假设关注模型的状态的总数被表示为N,则在时间点t处的状态s(t)是N个状态s1、s2、...、sN之一。
另外,N个状态s1、s2、...、sN中的各个状态附有作为用于确定状态的索引的状态ID(标识)。
现在,如果假设关于关注内容的关注模型的最大似然状态序列的时间点t处的状态s(t)是N个状态s1至sN中的第i状态si,则时间点t处的帧对应于状态si
因此,关注内容的各个帧对应于N个状态s1至sN之一。
关于关注内容的关注模型的最大似然状态序列的实体是N个状态s1至sN中的一个状态的状态ID的序列,其对应于关注内容的各个时间点t的帧。
如上所述的关于关注内容的关注模型的最大似然状态序列表示关注内容在关注模型上引起哪种状态转移。
状态对应图像信息生成单元35针对构成来自最大似然状态序列估计单元34的最大似然状态序列(状态ID的序列)的状态的各个状态ID,从来自内容选择单元31的关注内容之中选择与同一状态对应的帧。
具体地,状态对应图像信息生成单元35顺序选择关注模型的N个状态s1至sN作为关注状态。
现在,如果假设状态ID为#i的状态si被选择作为关注状态,则状态对应图像信息生成单元35从最大似然状态序列之中检索与关注状态(状态ID为#i的状态)匹配的状态,并且以与关注状态的状态ID关联的方式存储与该状态对应的帧。
随后,状态对应图像信息生成单元35处理与状态ID相关的帧,以生成与该状态ID对应的图像信息(在下文中,还称为“状态对应图像信息”),并且将其提供给图绘制单元38。
这里,关于状态对应图像信息,例如,可采用其中按时间序列顺序布置与状态ID相关的一个或多个帧的缩略图的静止图像(图像序列)、或者其中按时间序列顺序缩小并排列与状态ID相关的一个或多个帧的运动图像(电影)等。
注意,状态对应图像信息生成单元35关于在关注模型的N个状态s1至sN的状态ID之中在最大似然状态序列中未出现的状态的状态ID,不生成(无法生成)状态对应图像信息。
状态间距离计算单元36基于从一个状态si到另一状态sj的状态转移概率aij,获得从来自模型选择单元32的关注模型的一个状态si到另一状态sj的状态间距离dij *。随后,在获得从关注模型的N个状态的任意状态si到任意状态sj的状态间距离dij *之后,状态间距离计算单元36将具有状态间距离dij *作为分量的、具有N行乘N列的矩阵(状态间距离矩阵)提供给坐标计算单元37。
现在,例如,假设在状态转移概率aij大于预定阈值(例如,(1/N)×10-2)的情况下,状态间距离计算单元36将状态间距离dij *设置为例如0.1(小值),并且在状态转移概率aij等于或小于预定阈值的情况下,状态间距离计算单元36将状态间距离dij *设置为例如1.0(大值)。
坐标计算单元37获得作为模型图上的状态si的位置坐标的状态坐标Yi,以便减小模型图上从一个状态si到另一状态sj的欧几里得距离dij与来自状态间距离计算单元36的状态间距离矩阵的状态间距离dij *之间的误差,其中该模型图是布置了关注模型的N个状态s1至sN的二维或三维图。
具体地,坐标计算单元37获得状态坐标Yi,以便使得与欧几里得距离dij和状态间距离dij *之间的统计误差成比例的Sammon映射误差函数E最小化。
这里,Samnon映射是多维定标方法之一,并且例如在J.W.Sammon,JR.,“A Nonlinear Mapping for Data Structure Analysis(用于数据结构分析的非线性映射)”,IEEE Transactions on Computers,卷C-18,第5期,1969年5月中描述了其细节。
对于Sammon映射,例如,获得作为二维图的模型图上的状态坐标Yi=(xi,yi),以便使得表达式(1)的误差函数E最小化。
[表达式1]
表达式1
E = 1 &Sigma; i < j [ d ij * ] &Sigma; i < j N [ d ij * - d ij ] 2 d ij * &CenterDot; &CenterDot; &CenterDot; ( 2 )
这里,在表达式(1)中,N表示关注模型的状态的总数,并且i和j是取1至N范围中的整数值的状态索引(并且在该实施例中,还作为状态ID)。
dij *表示状态间距离矩阵的第i行第j列的元素,并且表示从状态si到状态sj的状态间距离。dij表示模型图上的状态si的位置的坐标(状态坐标)Yi与状态sj的位置的坐标Yj之间的欧几里得距离。
坐标计算单元37通过重复应用梯度方法来获得状态坐标Yi(i=1,2,...,N),以便使得表达式(1)中的误差函数E最小化,并将其提供给图绘制单元38。
图绘制单元38绘制其中在来自坐标计算单元37的状态坐标Yi中布置相应状态si(的图像)的模型图(的图形)。另外,图绘制单元38根据其状态之间的状态转移概率,绘制在模型图上的状态之间进行连接的线段。
另外,图绘制单元38将模型图上的状态si和来自从状态对应图像信息生成单元35的状态对应图像信息中的、与状态si的状态ID对应的状态对应图像信息链接,并将其提供给显示控制单元39。
显示控制单元39执行显示控制,用于在未示出的显示器上显示来自图绘制单元38的模型图。
图10是用于描述图9中的内容结构呈现单元14执行的处理(内容结构呈现处理)的概述的图。
图10中的A示出了在内容选择单元31处被选择作为关注内容(用于关注呈现的内容)的内容的帧的时间序列。
图10中的B示出了在特征量提取单元33处提取的、图10的A中的帧的时间序列的特征量的时间序列。
图10中的C示出了在最大似然状态序列估计单元34处估计的最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在关注模型中将观测到图10的B中的关注内容的特征量的时间序列。
这里,如上所述,关于关注内容的关注模型的最大似然状态序列的实体是状态ID的序列。随后,从关于关注内容的关注模型的最大似然状态序列的前端起的第t状态ID是如下状态的状态ID(对应于帧t的状态的状态ID):其中,在最大似然状态序列中将观测到关注内容的第t帧(时间点t处的)的特征量。
图10中的D示出了要在状态对应图像信息生成单元35处生成的状态对应图像信息。
在图10的D中,对于图10的C中的最大似然状态序列,选择与状态ID为“1”的状态对应的帧,并且生成作为关于该状态ID的状态对应图像信息的电影或图像序列。
图11是示出要由图9中的图绘制单元38绘制的模型图的示例的图。
对于图11中的模型图,椭圆表示状态,并且在椭圆之间进行连接的线段(虚线)表示状态转移。另外,提供给椭圆的数字表示由该椭圆表示的状态的状态ID。
如上所述,模型图绘制单元38绘制模型图(的图形),其中,在坐标计算单元37处获得的状态坐标Yi的位置中布置相应状态si(的图像(图11中的椭圆))。
另外,图绘制单元38根据其状态之间的状态转移概率,绘制在模型图上的状态之间进行连接的线段。具体地,在从模型图上的状态si到另一状态sj的状态转移概率大于预定阈值的情况下,图绘制单元38绘制在状态si与另一状态sj之间进行连接的线段。
这里,对于模型图,可用强调的方式来绘制状态等。
具体地,对于图11中的模型图,状态si可用椭圆(包括圆)等来绘制,而表示该状态si的椭圆等可通过根据作为概率分布函数的高斯分布的离差来改变其半径或颜色而被绘制,该概率分布函数作为状态si的观测概率bj(o)。
另外,可通过根据状态转移概率的大小改变线段的宽度或颜色,来绘制根据状态之间的状态转移概率在模型图上的状态之间进行连接的线段。
注意,用于以强调的方式绘制状态等的方法不限于如上所述的绘制。另外,不一定需要执行状态等的强调。
顺便提及,对于图9中的坐标计算单元37,在按原样采用表达式(1)中的误差函数E、并且获得模型图上的状态坐标Yi以便使得误差函数E最小化的情况下,如图11所示,在模型图上以圆形图案布置状态(表示该状态的椭圆)。
随后,在此情况下,状态集中在模型图的圆周的附近(外部)(外缘),这阻止了用户观看状态的布置,并因此可降低可视性。
因此,对于图9中的坐标计算单元37,可获得模型图上的状态坐标Yi,以便校正表达式(1)中的误差函数E,从而使得校正后的误差函数E最小化。
具体地,坐标计算单元37确定欧几里得距离dij是否大于预定阈值THd(例如,THd=1.0等)。
具体地,在欧几里得距离dij不大于预定阈值THd的情况下,对于表达式(1)中的误差函数的计算,坐标计算单元37按原样采用表达式(1)中的欧几里得距离dij作为欧几里得距离dij
另一方面,在欧几里得距离dij大于预定阈值THd的情况下,对于表达式(1)中的误差函数的计算,坐标计算单元37采用状态间距离dij *(假设dij=dij *)作为欧几里得距离dij(欧几里得距离dij被设置为等于状态间距离dij *的距离)。
在此情况下,对于模型图,当注意其欧几里得距离dij接近某种程度(不大于阈值THd)的两个状态si和sj时,改变状态坐标Yi和Yj,以便使得欧几里得距离dij与状态间距离dij *匹配(以使得欧几里得距离dij接近状态间距离dij *)。
另一方面,对于模型图,当注意其欧几里得距离dij远离某种程度(大于阈值THd)的两个状态si和sj时,不改变状态坐标Yi和Yj
结果,对于其欧几里得距离dij远离某种程度的两个状态si和sj,欧几里得距离dij仍保持远离,以便如图11所示,状态集中在模型图的圆周的附近(外缘)中,从而可以防止可视性降低。
图12是示出要使用校正后的误差函数E获得的模型图的示例的图。
根据图12中的模型图,可以识别状态没有集中在圆周的附近中。
[内容结构呈现处理]
图13是用于描述图9中的内容结构呈现单元14执行的内容结构呈现处理的流程图。
在步骤S41中,内容选择单元31根据例如用户的操作,从存储在内容存储单元11中的内容之中选择关注内容(用于关注呈现的内容)。
随后,内容选择单元31将关注内容提供给特征量提取单元33和状态对应图像信息生成单元35。另外,内容选择单元31识别关注内容的类别,并将其提供给模型选择单元32,并且处理从步骤S41进行到步骤S42。
在步骤S42中,模型选择单元32从存储在模型存储单元13中的内容模型之中,选择与来自内容选择单元31的关注内容的类别相关的内容模型作为关注模型。
随后,模型选择单元32将关注模型提供给最大似然状态序列估计单元34和状态间距离计算单元36,并且处理从步骤S42进行到步骤S43。
在步骤S43中,特征量提取单元33提取来自内容选择单元31的关注内容的各个帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元34,并且处理进行到步骤S44。
在步骤S44中,最大似然状态序列估计单元34估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在来自模型选择单元32的关注模型中将观测到来自特征量提取单元33的关注内容的特征量。
随后,最大似然状态序列估计单元34将关于关注内容的关注模型的最大似然状态序列提供给状态对应图像信息生成单元35,并且处理从步骤S44进行到步骤S45。
在步骤S45中,状态对应图像信息生成单元35针对构成来自最大似然状态序列估计单元34的最大似然状态序列(状态ID的序列)的状态的各个状态ID,从来自内容选择单元31的关注内容之中选择与同一状态对应的帧。
另外,状态对应图像信息生成单元35以与状态ID相关的方式,存储与状态ID的状态对应的帧。另外,状态对应图像信息生成单元35处理与状态ID相关的帧,从而生成状态对应图像信息。
随后,状态对应图像信息生成单元35将与状态ID对应的状态对应图像信息提供给图绘制单元38,并且处理从步骤S45进行到步骤S46。
在步骤S46中,状态间距离计算单元36基于状态转移概率aij,获得从来自模型选择单元32的关注模型的一个状态si到另一状态sj的状态间距离dij *。随后,在获得从关注模型的N个状态的任意状态si到任意状态sj的状态间距离dij *之后,状态间距离计算单元36将具有状态间距离dij *作为分量的状态间距离矩阵提供给坐标计算单元37,并且处理从步骤S46进行到步骤S47。
在步骤S47中,坐标计算单元37获得状态坐标Yi=(xi,yi),以便使得表达式(1)中的误差函数E最小化,该误差函数E是模型图上的从一个状态si到另一状态sj的欧几里得距离dij、与来自状态间距离计算单元36的状态间距离矩阵的状态间距离dij *之间的统计误差。
随后,坐标计算单元37将状态坐标Yi=(xi,yi)提供给图绘制单元38,并且处理从步骤S47进行到步骤S48。
在步骤S48中,图绘制单元38绘制例如二维模型图(的图形),其中,在该二维模型图中,在来自坐标计算单元37的状态坐标Yi=(xi,yi)的位置中布置相应状态si(的图像)。另外,图绘制单元38在模型图上绘制在其状态转移概率等于或大于预定阈值的状态之间进行连接的线段,并且处理从步骤S48进行到步骤S49。
在步骤S49中,图绘制单元38将模型图上的状态si与来自状态对应图像信息生成单元35的状态对应图像信息中的、与状态si的状态ID对应的状态对应图像信息进行链接,并将其提供给显示控制单元39,并且处理进行到步骤S50。
在步骤S50中,显示控制单元39执行显示控制,用于在未示出的显示器上显示来自图绘制单元38的模型图。
另外,显示控制单元39响应于通过用户的操作对模型图上的状态的指定,执行显示控制(用于播放的回放控制),用于显示与该状态的状态ID对应的状态对应图像信息。
具体地,在用户执行用于指定模型图上的状态的操作时,例如,显示控制单元39在与模型图分离的未示出的显示器上显示链接到该状态的状态对应图像信息。
因此,用户可以识别与模型图上的状态对应的帧的图像。
[摘要生成单元15的配置示例]
图14是示出图1中的摘要生成单元15的配置示例的框图。
摘要生成单元15包括高亮检测器学习单元51、检测器存储单元52以及高亮检测单元53。
高亮检测器学习单元51使用存储在内容存储单元11中的内容以及存储在模型存储单元13中的内容模型,来执行高亮检测器的学习,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型。
高亮检测器学习单元51将学习后的高亮检测器提供给检测器存储单元52。
这里,关于作为高亮检测器的模型,以与内容模型相同的方式,例如,可采用作为状态转移概率模型之一的HMM。
检测器存储单元52存储来自高亮检测器学习单元51的高亮检测器。
高亮检测器53使用存储在检测器存储单元52中的高亮检测器,从存储在内容存储单元11中的内容检测高亮场景的帧。另外,高亮检测器53使用高亮场景的帧来生成摘要内容,其是存储在内容存储单元11中的内容的摘要。
[高亮检测器学习单元51的配置示例]
图15是示出图14中的高亮检测器学习单元51的配置示例的框图。
在图15中,高亮检测器学习单元51包括内容选择单元61、模型选择单元62、特征量提取单元63、最大似然状态序列估计单元64、高亮标记生成单元65、学习标记生成单元66以及学习单元67。
内容选择单元61例如根据用户的操作,从存储在内容存储单元11中的内容之中,选择要用于高亮检测器的学习的内容作为用于关注检测器学习的内容(在下文中,简称为“关注内容”)。
具体地,内容选择单元61例如从作为存储在内容存储单元11中的内容的记录节目之中,选择用户指定作为回放对象的内容作为关注内容。
随后,内容选择单元61将关注内容提供给特征量提取单元63,并且还识别关注内容的类别,并将其提供给模型选择单元62。
模型选择单元62从存储在模型存储单元13中的内容模型之中,选择与来自内容选择单元61的关注内容的类别相关的内容模型作为关注模型,并将其提供给最大似然状态序列估计单元64。
特征量提取单元63以与图2中的特征量提取单元22相同的方式,提取从内容选择单元61提供的关注内容的各个帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元64。
最大似然状态序列估计单元64以与图9中的最大似然状态序列估计单元34相同的方式,估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在来自模型选择单元62的关注模型中将观测到来自特征量提取单元63的关注内容的特征量(的时间序列)的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元64将关于关注内容的关注模型的最大似然状态序列提供给学习标记生成单元66。
高亮标记生成单元65跟随用户操作,以对在内容选择单元61处选择的关注内容的各个帧执行高亮标记的标记,从而生成关于关注内容的高亮标记序列,其中,该高亮标记表示是否为高亮场景。
具体地,内容选择单元61选择的关注内容是如上所述的、用户指定作为回放对象的内容,并且关注内容的图像显示在未示出的显示器上(并且同时,音频从未示出的扬声器输出)。
当感兴趣场景显示在显示器上时,用户可以通过操作未示出的远程命令器等来输入消息以实现该场景是感兴趣场景的效果,并且高亮标记生成单元65根据这样的用户操作生成高亮标记。
具体地,例如,如果假设在输入表示是感兴趣场景的消息时的用户操作是偏爱操作,则高亮标记生成单元65关于没有执行偏爱操作的帧,生成例如表示除高亮场景之外的场景的、值为“0”的高亮标记。
另外,高亮标记生成单元65关于执行了偏爱操作的帧,生成例如表示是高亮场景的、值为“1”的高亮标记。
随后,高亮标记生成单元65将高亮标记序列提供给学习标记生成单元66,其中,该高亮标记序列是关于关注内容而生成的高亮标记的时间序列。
学习标记生成单元66生成用于学习的标记序列,其是状态ID的序列与来自高亮标记生成单元65的高亮标记序列的对,该状态ID的序列是来自最大似然状态序列估计单元64的、关于关注内容的关注模型的最大似然状态序列(从关注内容获得的最大似然状态序列)。
具体地,学习标记生成单元66关于作为来自最大似然状态序列估计单元64的最大似然状态序列的状态ID和来自高亮标记生成单元65的高亮标记序列,生成多流的用于学习的标记序列,该多流由各个时间点t处的状态ID(对应于帧t的状态的状态ID)与高亮标记(关于帧t的高亮标记)的对构成。
随后,学习标记生成单元66将用于学习的标记序列提供给学习单元67。
学习单元67使用来自学习标记生成单元66的、用于学习的标记序列,例如根据Baum-Welch重估计方法来执行作为遍历型的多流HMM的高亮检测器的学习。
随后,学习单元67以与在内容选择单元61处选择的关注内容的类别相关的方式,将学习后的高亮检测器提供并存储到检测器存储单元52。
这里,在高亮标记生成单元65处获得的高亮标记是值为“0”或“1”并且是离散值的二进制标记(符号)。另外,在最大似然状态序列估计单元64处从关注内容获得的最大似然状态序列是状态ID的序列,并且也是离散值。
因此,在学习标记生成单元66处被生成作为这样的高亮标记与最大似然状态序列的对的、用于学习的标记序列也是离散值(的时间序列)。以此方式,用于学习的标记序列是离散值,因此作为在学习单元67处执行其学习的高亮检测器的HMM的观测概率bj(o)是本身为概率的值(离散值)。
注意,对于多流HMM,关于构成多流的单个序列(流)(在下文中,还称为“组成序列”),可设置作为其组成序列对多流HMM的影响程度的权重(在下文中,还称为“序列权重”)。
将大的序列权重设置给要在多流HMM的学习时或者在使用多流HMM进行识别时(在获得最大似然状态序列时)要强调的组成序列,由此可以提供先验知识,以便防止多流HMM的学习结果落入局部解中。
注意,例如,在SATOSHI TAMURA,KOJI IWANO,SADAOKI FURUI,“Multi-modal speech recognition using optical-flow analysis(使用视觉流分析的多模语音识别)”,Acoustical Society of Japan(ASJ),2001 autumn lecture collected papers,1-1-14,pp.27-28(2001-10)等中描述了多流HMM的细节。
以上文献已经介绍了在音频视觉语音识别领域中的多流HMM的使用示例。具体地,进行了如下描述:其中,当音频的SN(信噪比)比率较低时,执行学习和识别,以便通过降低音频特征量序列的序列权重,增大图像的影响使得其大于音频的影响。
多流HMM与采用除多流之外的单个序列的HMM的不同点在于,如表达式(2)所示,关于构成多流的各个组成序列o[m]的观测概率b[m]j(o[m]),通过将预先设置的序列权重Wm纳入考虑来计算整个多流的观测概率bj(o[1],o[2],...,o[M])。
[表达式2]
表达式2
b j ( o [ 1 ] , o [ 2 ] , &CenterDot; &CenterDot; &CenterDot; , o [ M ] ) = &Pi; m = 1 M b [ m ] j ( o [ m ] ) w m ,
其中 W m &GreaterEqual; 0 , &Sigma; m = 1 M W m = 1 . . . ( 2 )
这里,在表达式(2)中,M表示构成多流的组成序列o[m]的数目(流的数目),序列权重Wm表示构成多流的M个组成序列的第m组成序列o[m]的序列权重。
作为要用于在图15中的学习单元67处进行学习的多流的、用于学习的标记序列包括两个组成序列:状态ID序列o[v]和高亮标记序列o[HL]
在此情况下,用于学习的标记序列的观测概率bj(o[v],o[HL])以表达式(3)来表示。
[表达式3]
表达式3
bj(o[V],o[HL])=(b[V]j(o[V]))W×(b[HL]j(o[HL]))1-W
                                              …(3)
这里,在表达式(3)中,b[v]j(o[v])表示状态ID序列o[v]的观测概率(在状态sj中将观测到观测值o[v]的观测概率),并且b[HL]j(o[HL])表示高亮标记序列o[HL]的观测概率。另外,W表示状态ID序列o[v]的序列权重,并且1-W表示高亮标记序列o[HL]的序列权重。
注意,对于作为高亮检测器的HMM的学习,例如,可采用0.5作为序列权重W。
图16是用于描述图15中的高亮标记生成单元65的处理的图。
高亮标记生成单元65关于尚未执行用户的偏爱操作的关注内容的帧(时间点),生成值为“0”的高亮标记,其表示是除高亮场景之外的场景。另外,高亮标记生成单元65关于执行了用户的偏爱操作的关注内容的帧,生成值为“1”的高亮标记,其表示是高亮场景。
[高亮检测器学习处理]
图17是用于描述图15中的高亮检测器学习单元51执行的处理(高亮检测器学习处理)的流程图。
在步骤S71中,内容选择单元61例如从存储在内容存储单元11中的内容之中,选择通过用户的操作指定回放的内容作为关注内容(用于关注检测器学习的内容)。
随后,内容选择单元61将关注内容提供给特征量提取单元63,并且还识别关注内容的类别,并将其提供给模型选择单元62,并且处理从步骤S71进行到步骤S72。
在步骤S72中,模型选择单元62从存储在模型存储单元13中的内容模型之中,选择与来自内容选择单元61的关注内容的类别相关的内容模型作为关注模型。
随后,模型选择单元62将关注模型提供给最大似然状态序列估计单元64,并且处理从步骤S72进行到步骤S73。
在步骤S73中,特征量提取单元63提取从内容选择单元61提供的关注内容的各个帧的特征量,将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元64,并且处理进行到步骤S74。
在步骤S74中,最大似然状态序列估计单元64估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在来自模型选择单元62的关注模型中将观测到来自特征量提取单元63的关注内容的特征量(的时间序列)的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元64将关于关注内容的关注模型的最大似然状态序列提供给学习标记生成单元66,并且处理从步骤S74进行到步骤S75。
在步骤S75中,高亮标记生成单元65根据用户的操作,通过对在内容选择单元61处选择的关注内容的各个帧执行高亮标记的标记,来生成关于关注内容的高亮标记序列。
随后,高亮标记生成单元65将关于关注内容而生成的高亮标记序列提供给学习标记生成单元66,并且处理进行到步骤S76。
在步骤S76中,学习标记生成单元66生成作为状态ID序列与来自高亮标记生成单元65的高亮标记序列的对的学习标记,该状态ID序列是来自最大似然状态序列估计单元64的、关于关注内容的关注模型的最大似然状态序列。
随后,学习标记生成单元66将用于学习的标记序列提供给学习单元67,并且处理从步骤S76进行到步骤S77。
在步骤S77中,学习单元67使用来自学习标记生成单元66的用于学习的标记序列,执行作为HMM的高亮检测器的学习,并且处理进行到步骤S78。
在步骤S78中,学习单元67以与在内容选择单元61处选择的关注内容的类别相关的方式,将学习后的高亮检测器提供并存储到检测器存储单元52。
如上所述,通过使用用于学习的标记序列执行HMM的学习来获得高亮检测器,其中,该用于学习的标记序列是作为关于关注内容的关注模型的最大似然状态序列的状态ID序列、与根据用户的操作而生成的高亮标记序列的对。
因此,通过参考高亮检测器的各个状态的高亮标记序列o[HL]的观测概率b[HL]j(o[HL]),可确定在其状态中观测到的(概率较高)、与内容模型的状态o[v]对应的帧是否是用户感兴趣的场景(高亮场景)。
[高亮检测单元53的配置示例]
图18是示出图14中的高亮检测单元53的配置示例的框图。
在图18中,高亮检测单元53包括内容选择单元71、模型选择单元72、特征量提取单元73、最大似然状态序列估计单元74、检测标记生成单元75、最大似然状态序列估计单元77、高亮场景检测单元78、摘要内容生成单元79以及回放控制单元80。
内容选择单元71例如根据用户的操作,从存储在内容存储单元11中的内容之中,选择例如作为要从其检测高亮场景的对象内容的、用于关注高亮检测的内容(在下文中,还简称为“关注内容”)。
具体地,内容选择单元71例如选择被用户指定为从其生成摘要的内容的内容作为关注内容。替选地,内容选择单元71例如选择尚未从其生成摘要的内容中的任意内容作为关注内容。
在选择了关注内容之后,内容选择单元71将该关注内容提供给特征量提取单元73,并且还识别关注内容的类别,并将其提供给模型选择单元72和检测器选择单元76。
模型选择单元72从存储在模型存储单元13中的内容模型之中,选择与来自内容选择单元71的关注内容的类别相关的内容模型作为关注模型,并将其提供给最大似然状态序列估计单元74。
特征量提取单元73以与图2中的特征量提取单元22相同的方式,提取从内容选择单元71提供的关注内容的各个帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元74。
最大似然状态序列估计单元74以与图9中的最大似然状态序列估计单元34相同的方式,估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在来自模型选择单元72的关注模型中将观测到来自特征量提取单元73的关注内容的特征量(的时间序列)的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元74将关于关注内容的关注模型的最大似然状态序列提供给检测标记生成单元75。
检测标记生成单元75生成检测标记序列,其中,该检测标记序列是状态ID序列与仅仅表示是除高亮场景之外的场景(或者是高亮场景)的高亮标记的高亮标记序列的对,其中,该状态序列ID是来自最大似然状态序列估计单元74的、关于关注内容的关注模型的最大似然状态序列(从关注内容获得的最大似然状态序列)。
具体地,检测标记生成单元75生成具有与来自最大似然状态序列估计单元74的最大似然状态序列相同长度(序列长度)的高亮标记序列,作为要给予高亮检测器的所谓的空序列(dummy sequence),该高亮标记序列是仅仅表示是除高亮场景之外的场景的高亮标记的高亮标记序列。
另外,检测标记生成单元75生成多流的检测标记序列,其中,该多流由作为来自最大似然状态序列估计单元74的最大似然状态序列的状态ID、作为空序列的高亮标记序列中的各个时间点t处的状态ID(与帧t对应的状态的状态ID)以及高亮标记(关于帧t的高亮标记(这里,表示是除高亮场景之外的场景的高亮标记))的对构成。
随后,检测标记生成单元75将检测标记序列提供给最大似然状态序列估计单元77。
检测单元选择单元76从存储在检测器存储单元52中的高亮检测器之中,选择与来自内容选择单元71的关注内容的类别相关的高亮检测器作为关注检测器。随后,检测器选择单元76从存储在检测器存储单元52中的高亮检测器之中获得关注检测器,并将其提供给最大似然状态序列估计单元77和高亮场景检测单元78。
最大似然状态序列估计单元77例如根据维特比算法,估计最大似然状态序列(在下文中,还称为“高亮关系状态序列”),在作为来自检测器选择单元76的关注检测器的HMM中将观测到来自检测标记生成单元75的检测标记序列的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元77将高亮关系状态序列提供给高亮场景检测单元78。
注意,检测标记序列是具有作为关于关注内容的关注模型的最大似然状态序列的状态ID序列o[v]以及作为空序列的高亮标记序列o[HL]作为组成序列的多流,并且在对高亮关系状态序列进行估计时,以与用于学习的标记序列的情况相同的方式,根据表达式(3)获得检测标记序列的观测概率bj(o[v],o[HL])。
然而,关于获得检测标记序列的观测概率bj(o[v],o[HL])时的状态ID序列o[v]的序列权重W为1.0。在此情况下,高亮标记序列o[HL]的序列权重W为0.0。因此,对于最大似然状态序列估计单元77,仅考虑关于关注内容的关注模型的最大似然状态序列而不考虑被输入作为空序列的高亮标记序列,来执行高亮关系状态序列的估计。
高亮场景检测单元78通过参考来自检测器选择单元76的关注检测器,识别来自最大似然状态序列估计单元77的、从检测标记序列获得的最大似然状态序列(高亮关系状态序列)的各个状态的高亮标记o[HL]的观测概率b[HL]j(o[HL])。
另外,高亮场景检测单元78基于高亮标记o[HL]的观测概率b[HL]j(o[HL]),从关注内容检测高亮场景的帧。
具体地,在高亮关系状态序列的时间点t处的状态sj中,在表示是高亮场景的高亮标记的观测概率b[HL]j(o[HL]=“1”)与表示是除高亮场景之外的场景的高亮标记的观测概率b[HL]j(o[HL]=“0”)之间的差b[HL]j(o[HL]=“1”)-b[HL]j(o[HL]=“0”)大于预定阈值THb(例如,THb=0等)的情况下,高亮场景检测单元78检测与时间点t处的状态sj对应的关注内容的帧t作为高亮场景的帧。
随后,关于关注内容的作为高亮场景的帧,高亮场景检测单元78将表示帧是否为高亮场景帧的一比特的高亮标志设置为表示是高亮场景的值(例如“1”)。另外,关于关注内容的作为除高亮场景之外的场景的帧,高亮场景检测单元78将高亮标志设置为表示是除高亮场景之外的场景的值(例如,“0”)。
随后,高亮场景检测单元78将关注内容的各个帧的高亮标志(的时间序列)提供给摘要内容生成单元79。
摘要内容生成单元79从来自内容选择单元71的关注内容的帧,提取由来自高亮场景检测单元78的高亮标志确定的高亮场景帧。另外,摘要内容生成单元79至少使用从关注内容的帧提取的高亮场景帧来生成作为关注内容的摘要的摘要内容,并将其提供给回放控制单元80。
回放控制单元80执行回放控制,用于播放来自摘要内容生成单元79的摘要内容。
图19示出了图18中的摘要内容生成单元79生成的摘要内容的示例。
图19中的A示出了摘要内容的第一示例。
在图19的A中,摘要内容生成单元79从关注内容提取高亮场景的帧的图像以及伴随该图像的音频数据,并且生成运动图像的内容作为摘要内容,其中,在该运动图像中,在保持时间前后关系的同时,对其图像数据和音频数据进行组合。
在此情况下,对于回放控制单元80(图18),仅显示具有与原始内容(关注内容)相同尺寸(在下文中,还称为“实际尺寸(full size)”)的高亮场景帧的图像,并且还输出伴随该图像的音频。
注意,在图19的A中,对于从关注内容提取高亮场景帧的图像,也可提取所有高亮场景帧,或者也可执行使帧变稀疏的提取(诸如对每两个高亮场景帧提取一个帧)等。
图19中的B示出了摘要内容的第二示例。
在图19的B中,摘要内容生成单元79执行帧稀疏处理(例如,用于每20个帧提取一个帧的稀疏处理),以使得在观看和收听时,以快进观看关注内容的帧中的非高亮场景帧的图像,并且还处理关注内容,以使得伴随非高亮场景帧的图像的音频无声,从而生成摘要内容。
在此情况下,对于回放控制单元80(图18),关于高亮场景,以1×(1倍速度)显示图像,并且还输出伴随该图像的音频,但是关于除高亮场景之外的场景(非高亮场景),以快进(例如,20×)显示图像,并且另外,不输出伴随该图像的音频。
注意,在图19的B中,伴随非高亮场景的图像的音频被布置成不被输出,但是也可按与伴随高亮场景的图像的音频相同的方式,输出伴随非高亮场景的图像的音频。在此情况下,分别可以以小音量输出伴随非高亮场景的图像的音频,并且可以以大音量输出伴随高亮场景的图像的音频。
另外,在图19的B中,以相同尺寸(实际尺寸)来显示高亮场景的图像和非高亮场景的图像,但是也可以以比高亮场景的图像的尺寸小的尺寸(例如,通过将高亮场景的图像的宽度和长度的尺寸分别减小50%而获得的尺寸等)来显示非高亮场景的图像,(或者可以以比非高亮场景的图像的尺寸大的尺寸来显示高亮场景的图像)。
另外,在图19中,在使得帧变稀疏的情况下,例如可由用户指定稀疏率。
[高亮检测处理]
图20是用于描述图18中的高亮检测单元53的处理(高亮检测处理)的流程图。
在步骤S81中,内容选择单元71从存储在内容存储单元11中的内容之中,选择作为要从其检测高亮场景的内容的关注内容(用于关注高亮检测的内容)。
随后,内容选择单元71将关注内容提供给特征量提取单元73。另外,内容选择单元71识别关注内容的类别,并将其提供给模型选择单元72和检测器选择单元76,并且处理从步骤S81进行到步骤S82。
在步骤S82中,模型选择单元72从存储在模型存储单元13中的内容模型之中,选择与来自内容选择单元71的关注内容的类别相关的内容模型作为关注模型。
随后,模型选择单元72将关注模型提供给最大似然状态序列估计单元74,并且处理从步骤S82进行到步骤S83。
在步骤S83中,特征量提取单元73提取从内容选择单元71提供的关注内容的各个帧的特征量,将其提供给最大似然状态序列估计单元74,并且处理进行到步骤S84。
在步骤S84中,最大似然状态序列估计单元74估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在来自模型选择单元72的关注模型中将观测到来自特征量提取单元73的关注内容的特征量(的时间序列)的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元74将关于关注内容的关注模型的最大似然状态序列提供给检测标记生成单元75,并且处理从步骤S84进行到步骤S85。
在步骤S85中,例如,检测标记生成单元75生成由仅表示是除高亮场景之外的场景的高亮标记(值为“0”的高亮标记)构成的高亮标记序列作为空高亮标记序列,并且处理进行到步骤S86。
在步骤S86中,检测标记生成单元75生成检测标记序列,其是作为来自最大似然状态序列估计单元74的关于关注内容的关注模型的最大似然状态序列的状态ID序列、与空高亮标记序列的对。
随后,检测标记生成单元75将检测标记序列提供给最大似然状态序列估计单元77,并且处理从步骤S86进行到步骤S87。
在步骤S87中,检测器选择单元76从存储在检测器存储单元52中的高亮检测器之中,选择与来自内容选择单元71的关注内容的类别相关的高亮检测器作为关注检测器。随后,检测器选择单元76从存储在检测器存储单元52中的高亮检测器之中获得关注检测器,将其提供给最大似然状态序列估计单元77和高亮场景检测单元78,并且处理从步骤S87进行到步骤S88。
在步骤S88中,最大似然状态序列估计单元77估计最大似然状态序列(高亮关系状态序列),其中,在来自检测器选择单元76的关注检测器中将观测到来自检测标记生成单元75的检测标记序列的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元77将高亮关系状态序列提供给高亮场景检测单元78,并且处理从步骤S88进行到步骤S89。
在步骤S89中,高亮场景检测单元78基于来自最大似然状态序列估计单元77的高亮关系状态序列从关注内容检测高亮场景,并且执行用于输出高亮标志的高亮场景检测处理。
随后,在完成高亮场景检测处理之后,处理从步骤S89进行到步骤S90,其中,摘要内容生成单元79从来自内容选择单元71的关注内容的帧,提取由高亮场景检测单元78输出的高亮标志确定的高亮场景帧。
另外,摘要内容生成单元79使用从关注内容的帧提取的高亮场景帧来生成关注内容的摘要内容,将其提供给回放控制单元80,并且处理从步骤S90进行到步骤S91。
在步骤S91中,回放控制单元80执行回放控制,用于播放来自摘要内容生成单元79的摘要内容。
图21是用于描述在图20的步骤S89中高亮场景检测单元78(图18)执行的高亮场景检测处理的流程图。
在步骤S101中,高亮场景检测单元78将用于对时间点(关注内容的帧的数目)进行计数的变量t设置为作为初始值的1,并且处理进行到步骤S102。
在步骤S102中,高亮场景检测单元78从作为来自检测器选择单元76(图18)的关注检测器的HMM的状态s1至sN′之中(N′表示作为关注检测器的HMM的状态的总数),获得(识别)来自最大似然状态序列估计单元77的高亮关系状态序列的时间点t处的状态H(t)=sj(从前端起的第t状态)。
随后,处理从步骤S102进行到步骤S103,其中,高亮场景检测单元78从来自检测器选择单元76的关注检测器,获得时间点t处的状态H(t)=sj的高亮标记o[HL]的观测概率b[HL]H(t)j(o[HL]),并且处理进行到步骤S104。
在步骤S104中,高亮场景检测单元78基于高亮标记o[HL]的观测概率b[HL]H(t)j(o[HL]),确定关注内容的时间点t处的帧是否是高亮场景。
在步骤S104中确定关注内容的时间点t处的帧是高亮场景的情况下,即,例如,在高亮标记o[HL]的观测概率b[HL]H(t)j(o[HL])的、表示是高亮场景的高亮标记的观测概率b[HL]H(t)(o[HL]=“1”)与表示是除高亮场景之外的场景的高亮标记的观测概率b[HL]H(t)(o[HL]=“0”)之间的差b[HL]j(o[HL]=“1”)-b[HL]j(o[HL]=“0”)大于预定阈值THb的情况下,处理进行到步骤S105,其中,高亮场景检测单元78将关注内容的时间点t处的帧的高亮标志F(t)设置为表示是高亮场景的值“1”。
另外,在步骤S104中确定关注内容的时间点t处的帧是除高亮场景之外的场景的情况下,即,例如,在高亮标记o[HL]的观测概率b[HL]H(t)j(o[HL])的、表示是高亮场景的高亮标记的观测概率b[HL]H(t)(o[HL]=“1”)与表示是除高亮场景之外的场景的高亮标记的观测概率b[HL]H(t)(o[HL]=“0”)之间的差b[HL]j(o[HL]=“1”)-b[HL]j(o[HL]=“0”)不大于预定阈值THb的情况下,处理进行到步骤S106,其中,高亮场景检测单元78将关注内容的时间点t处的帧的高亮标志F(t)设置为表示是除高亮场景之外的场景的值“0”。
在步骤S105和S106之后,在任一情况下,处理进行到步骤S107,其中,高亮场景检测单元78确定变量t是否等于关注内容的帧的总数NF
在步骤S107中确定变量t不等于帧的总数NF的情况下,处理进行到步骤S108,其中,高亮场景检测单元78将变量t增加一,并且处理返回至步骤S102。
另外,在步骤S107中确定变量t等于帧的总数NF的情况下,即,在针对获得关注内容的特征量的各个帧而获得高亮标志F(t)的情况下,处理进行到步骤S109,其中,高亮场景检测单元78将关注内容的高亮标志F(t)的序列输出到摘要内容生成单元79(图18)作为高亮场景检测结果,并且处理返回。
如上所述,高亮检测单元53(图18)估计作为如下情况下的最大似然状态序列的高亮关系状态序列:其中,在高亮检测器中观测到检测标记序列,该检测标记序列是作为关于关注内容的关注模型的最大似然状态序列的状态ID序列、与空高亮标记序列的对,并且基于该高亮关系状态序列的各个状态的高亮标记的观测概率,从关注内容检测高亮场景帧,并且使用该高亮场景帧生成摘要内容。
另外,通过使用用于学习的标记序列执行HMM的学习来获得高亮检测器,该用于学习的标记序列是作为关于内容的内容模型的最大似然状态序列的状态ID序列、与根据用户的操作而生成的高亮标记序列的对。
因此,甚至在用于生成摘要内容的关注内容并未用于内容模型或高亮检测器的学习的情况下,如果使用具有与关注内容相同类别的内容来执行内容模型或高亮检测器的学习,则可以使用该内容模型和高亮检测器,容易地获得通过收集用户感兴趣的场景作为高亮场景而生成的摘要(摘要内容)。
[剪贴簿生成单元16的配置示例]
图22是示出图1中的剪贴簿生成单元16的配置示例的框图。
剪贴簿生成单元16包括初始剪贴簿生成单元101、初始剪贴簿存储单元102、登记剪贴簿生成单元103、登记剪贴簿存储单元104以及回放控制单元105。
初始剪贴簿生成单元101使用存储在内容存储单元11中的内容以及存储在模型存储单元13中的内容模型,来生成稍后描述的初始剪贴簿,并且将其提供给初始剪贴簿存储单元102。
初始剪贴簿存储单元102存储来自初始剪贴簿生成单元101的初始剪贴簿。
登记剪贴簿生成单元103使用存储在内容存储单元11中的内容、存储在模型存储单元13中的内容模型、以及存储在初始剪贴簿存储单元102中的初始剪贴簿,来生成稍后描述的登记剪贴簿,并且将其提供给登记剪贴簿存储单元104。
登记剪贴簿存储单元104存储来自登记剪贴簿生成单元103的登记剪贴簿。
回放控制单元105执行回放控制,用于播放存储在登记剪贴簿存储单元104中的登记剪贴簿。
[初始剪贴簿生成单元101的配置示例]
图23是示出图22中的初始剪贴簿生成单元101的配置示例的框图。
在图23中,初始剪贴簿生成单元101包括内容选择单元111、模型选择单元112、特征量提取单元113、最大似然状态序列估计单元114、状态对应图像信息生成单元115、状态间距离计算单元116、坐标计算单元117、图绘制单元118、显示控制单元119、状态选择单元121以及选择状态登记单元122。
内容选择单元111至显示控制单元119以与内容结构呈现单元14(图9)的内容选择单元31至显示控制单元39相同的方式进行配置,并且执行图13中描述的内容结构呈现处理。
注意,图绘制单元118以与图9中的图绘制单元38相同的方式,将模型图提供给显示控制单元119,并且还提供给状态选择单元121。
在通过用户的操作指定了通过内容结构呈现处理显示的模型图(图11、图12)上的状态的情况下,状态选择单元121选择指定的状态作为选择状态。另外,状态选择单元121参考来自图绘制单元118的模型图来识别选择状态的状态ID,并且将其提供给选择状态登记单元122。
选择状态登记单元122生成空白剪贴簿,并且将来自状态选择单元121的选择状态的状态ID登记在该空白剪贴簿上。随后,选择状态登记单元122将其中登记了状态ID的剪贴簿提供并存储到初始剪贴簿存储单元102作为初始剪贴簿。
这里,选择状态登记单元122生成的剪贴簿是电子存储库,通过其可以保持(存储)诸如静止图像(照片)、运动图像、音频(音乐)等的数据。
注意,空白剪贴簿是其中未登记任何东西的剪贴簿,并且初始剪贴簿是其中登记了状态ID的剪贴簿。
对于如上所述配置的初始剪贴簿生成单元101,通过执行的内容结构呈现处理(图13)在未示出的显示器上显示模型图(图11、图12)。随后,在通过用户的操作指定了模型图上的状态的情况下,该指定状态(选择状态)的状态ID被登记在(空白)剪贴簿中。
图24是示出用于用户指定模型图上的状态的用户界面的示例的图,其中,通过执行显示控制的显示控制单元119来显示该用户界面。
在图24中,在图绘制单元118处生成的模型图132显示在窗口131上。
窗口131内的模型图132上的状态可以通过用户指定来聚焦。例如,可通过使用诸如鼠标等的指向设备来点击要聚焦的状态、通过将根据指向设备的操作而移动的光标移动到状态要聚焦的状态的位置等,来执行用户对状态的指定。
另外,可以以不同的显示格式(诸如不同的颜色等),显示模型图132上的状态中的已经为选择状态的状态以及还不是选择状态的状态。
对于窗口131的下部,设置了状态ID输入栏133、剪贴簿ID输入栏134、登记按钮135、结束按钮136等。
在状态ID输入栏133上显示模型图132上的状态中的聚焦状态的状态ID。
注意,用户还可以直接在状态ID输入栏133上输入状态ID。
在剪贴簿ID输入栏134上显示作为用于确定剪贴簿的信息的剪贴簿ID,其中,该剪贴簿用于登记选择状态的状态ID。
注意,剪贴簿ID输入栏134可以由用户操作(例如,可以使用诸如鼠标等的指向设备来点击),并且根据用户对剪贴簿ID输入栏134的操作,改变要在剪贴簿ID输入栏134上显示的剪贴簿ID。因此,用户可以通过操作剪贴簿ID输入栏134来改变登记状态ID的剪贴簿。
在剪贴簿中登记聚焦状态(在状态ID输入栏133上显示状态ID的状态)的状态ID的情况下,操作登记按钮135。也就是说,在登记按钮135被操作的情况下,聚焦状态被选择(确定)作为选择状态。
例如,当结束模型图132的显示时(当关闭窗口131时)等,操作结束按钮136。
在内容结构呈现处理中生成的状态对应图像信息被链接到模型图132上的状态中的聚焦状态的情况下,窗口130被打开。随后,在窗口130上显示链接到聚焦状态的状态对应图像信息。
注意,在窗口130(另外,除窗口130之外的未示出的窗口)上,可在时间上依次或者在空间上并行地显示链接到聚焦状态以及接近聚焦状态的状态中的每个的状态对应图像信息、或者链接到模型图132上的所有状态的各个状态的状态对应图像信息,而不是显示链接到聚焦状态的状态对应图像信息。
用户可以通过点击等指定显示在窗口131上的模型图132上的任意状
态。
在用户指定状态时,显示控制单元119(图23)在窗口130上显示链接到用户指定的状态的状态对应图像信息。
因此,用户可以确认与模型图132上的状态对应的帧的图像。
在观看显示在窗口130上的图像、对该图像感兴趣、并且期望将其登记在剪贴簿上的情况下,用户操作登记按钮135。
在登记按钮135被操作时,状态选择单元121(图23)选择用户此时指定的模型图132上的状态作为选择状态。
随后,在用户操作结束按钮136时,状态选择单元121将到目前为止所选择的选择状态中的状态ID提供给选择状态登记单元122(图23)。
选择状态登记单元122将来自从状态选择单元121的选择状态中的状态ID登记在空白剪贴簿上,并且将其中登记了状态ID的剪贴簿存储到初始剪贴簿存储单元102作为初始剪贴簿。随后,显示控制单元119(图23)关闭窗口131和141。
[初始剪贴簿生成处理]
图25是用于描述图23中的初始剪贴簿生成单元101执行的处理(初始剪贴簿生成处理)的流程图。
在步骤S121中,内容选择单元111或显示控制单元119执行与内容结构呈现单元14(图9)中的内容选择单元31或显示控制单元39相同的内容结构呈现处理(图13)。因此,包括模型图132的窗口131(图24)显示在未示出的显示器上。
随后,处理从步骤S121进行到步骤S122,其中,状态选择单元121确定用户是否执行了状态登记操作。
在步骤S122中确定执行了状态登记操作的情况下,即,在用户指定了模型图132上的状态并且操作了(窗口131的)登记按钮135(图24)的情况下,处理进行到步骤S123,其中,状态选择单元121选择在登记按钮135被操作时用户指定的模型图132上的状态作为选择状态。
另外,状态选择单元121将选择状态的状态ID存储在未示出的存储器中,并且处理从步骤S123进行到步骤S124。
另外,在步骤S122中确定尚未执行状态登记操作的情况下,处理跳过步骤S123进行到步骤S124。
在步骤S124中,状态选择单元121确定用户是否执行了结束操作。
在步骤S124中确定尚未执行结束操作的情况下,处理返回至步骤S122,并且此后重复同一处理。
另外,在步骤S124中确定执行了结束操作的情况下,即,在用户操作了结束按钮136(图24)的情况下,状态选择单元121将在步骤S123中存储的选择状态的所有状态ID提供给选择状态登记单元122,并且处理进行到步骤S125。
在步骤S125中,选择状态登记单元122生成空白剪贴簿,并且将来自状态选择单元121的选择状态的状态ID登记在该空白剪贴簿上。
另外,选择状态登记单元122取其中登记了状态ID的剪贴簿作为初始剪贴簿,并且使得该初始剪贴簿与在步骤S121中的内容结构呈现处理(图13)中被选择作为关注内容(用于关注呈现的内容)的内容的类别相关。
随后,选择状态登记单元122将与关注内容的类别相关的初始剪贴簿提供并存储到初始剪贴簿存储单元102。
随后,关闭在步骤S121中的内容结构呈现处理中显示的窗口131(图24),并且初始剪贴簿生成处理结束。
[登记剪贴簿生成单元103的配置示例]
图26是示出图22中的登记剪贴簿生成单元103的配置示例的框图。
在图26中,登记剪贴簿生成单元103包括剪贴簿选择单元141、内容选择单元142、模型选择单元143、特征量提取单元144、最大似然状态序列估计单元145、帧提取单元146以及帧登记单元147。
剪贴簿选择单元141选择存储在初始剪贴簿存储单元102中的初始剪贴簿之一作为关注剪贴簿,并且将其提供给帧提取单元146和帧登记单元147。
另外,剪贴簿选择单元141将与关注剪贴簿相关的类别提供给内容选择单元142和模型选择单元143。
内容选择单元142从存储在内容存储单元11中的内容之中,选择属于来自剪贴簿选择单元141的类别的内容之一作为用于关注剪贴簿的内容(在下文中,还简称为“关注内容”)。
随后,内容选择单元142将关注内容提供给特征量提取单元144和帧提取单元146。
模型选择单元143从存储在模型存储单元13中的内容模型之中,选择与来自剪贴簿选择单元141的类别相关的内容模型作为关注模型,并且将其提供给最大似然状态序列估计单元145。
特征量提取单元144以与图2中的特征提取单元22相同的方式,提取从内容选择单元142提供的关注内容的(图像的)各个帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元145。
例如,根据维特比算法,最大似然状态序列估计单元145估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),该最大似然状态序列是在来自模型选择单元143的关注模型中将观测到来自特征量提取单元144的关注内容的特征量(的时间序列)的似然最高的情况下,引起状态转移的状态序列。
随后,最大似然状态序列估计单元145将关于关注内容的关注模型的最大似然状态序列提供给帧提取单元146。
帧提取单元146关于来自最大似然状态序列估计单元145的最大似然状态序列的各个状态,确定状态ID是否与登记在来自剪贴簿选择单元141的关注剪贴簿中的选择状态的状态ID(在下文中,还称为“登记状态ID”)匹配。
另外,帧提取单元146从来自内容选择单元142的关注内容之中,提取与来自最大似然状态序列估计单元145的最大似然状态序列的状态中的、状态ID与登记在来自剪贴簿选择单元141的关注剪贴簿中的登记状态ID匹配的状态对应的帧,并且将其提供给帧登记单元147。
帧登记单元147将来自帧提取单元146的帧登记在来自剪贴簿选择单元141的关注剪贴簿中。另外,帧登记单元147将帧登记之后的关注剪贴簿提供并存储到登记剪贴簿存储单元104作为登记剪贴簿。
[登记剪贴簿生成处理]
图27是用于描述图26中的登记剪贴簿生成单元103执行的登记剪贴簿生成处理的流程图。
在步骤S131中,剪贴簿选择单元141在存储在初始剪贴簿存储单元102中的初始剪贴簿之中,选择尚未被选择作为关注剪贴簿的初始剪贴簿之一作为关注剪贴簿。
随后,剪贴簿选择单元141将关注剪贴簿提供给帧提取单元146和帧登记单元147。另外,剪贴簿选择单元141将与关注剪贴簿相关的类别提供给内容选择单元142和模型选择单元143,并且处理从步骤S131进行到步骤S132。
在步骤S132中,内容选择单元142在存储在内容存储单元11中的内容之中,选择在属于来自剪贴簿选择单元141的类别的内容之中、尚未被选择作为关注内容(用于关注剪贴簿的内容)的内容之一作为关注内容。
随后,内容选择单元142将关注内容提供给特征量提取单元144和帧提取单元146,并且处理从步骤S132进行到步骤S133。
在步骤S133中,模型选择单元143在存储在模型存储单元13中的内容模型之中,选择与来自剪贴簿选择单元141的类别相关的内容模型作为关注模型。
随后,模型选择单元143将关注模型提供给最大似然状态序列估计单元145,并且处理从步骤S133进行到步骤S134。
在步骤S134中,特征量提取单元144提取从内容选择单元142提供的关注内容的各个帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元145。
随后,处理从步骤S134进行到步骤S135,其中,最大似然状态序列估计单元145估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),在来自模型选择单元143的关注模型中将观测到来自特征量提取单元144的关注内容的特征量(的时间序列)的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元145将关于关注内容的关注模型的最大似然状态序列提供给帧提取单元146,并且处理从步骤S135进行到步骤S136。
在步骤S136中,帧提取单元146将用于对时间点(关注内容的帧的数目)进行计数的变量t设置为作为初始值的“1”,并且处理进行到步骤S137。
在步骤S137中,帧提取单元146确定来自最大似然状态序列估计单元145的最大似然状态序列(关于关注内容的关注模型的最大似然状态序列)的时间点t处的状态(从前端起的第t状态)的状态ID是否与登记在来自剪贴簿选择单元141的关注剪贴簿中的选择状态的登记状态ID之一匹配。
在步骤S137中确定关于关注内容的关注模型的最大似然状态序列的时间点t处的状态的状态ID与登记在关注剪贴簿中的选择状态的登记状态ID之一匹配的情况下,处理进行到步骤S138,其中,帧提取单元146从来自内容选择单元142的关注内容提取时间点t处的帧,将其提供给帧登记单元147,并且处理进行到步骤S139。
另外,在步骤S137中确定关于关注内容的关注模型的最大似然状态序列的时间点t处的状态的状态ID与登记在关注剪贴簿中的选择状态的登记状态ID中的任何一个不匹配的情况下,处理跳过步骤S138进行到步骤S139。
在步骤S139中,帧提取单元146确定变量t是否等于关注内容的帧的总数NF
在步骤S139中确定变量t不等于关注内容的帧的总数NF的情况下,处理进行到步骤S140,其中,帧提取单元146将变量t增加一。随后,处理从步骤S140返回至步骤S137,并且此后重复同一处理。
另外,在步骤S139中确定变量t等于关注内容的帧的总数NF的情况下,处理进行到步骤S141,其中,帧登记单元147将从帧提取单元146提供的帧(即,从关注内容提取的所有帧)登记在来自剪贴簿选择单元141的关注剪贴簿中。
随后,处理从步骤S141进行到步骤S142,其中,内容选择单元142确定在存储在内容存储单元11中的、属于与关注剪贴簿相关的类别相同类别的内容之中,是否存在尚未被选择作为关注内容的内容。
在步骤S142中确定在存储在内容存储单元11中的、属于与关注剪贴簿相关的类别相同类别的内容之中,存在尚未被选择作为关注内容的内容的情况下,处理返回至步骤S132,并且此后重复同一处理。
另外,在步骤S142中确定存储在内容存储单元11中的、属于与关注剪贴簿相关的类别相同类别的内容之中不存在尚未被选择作为关注内容的内容的情况下,处理进行到步骤S143,其中,帧登记单元147将关注剪贴簿输出到登记剪贴簿存储单元104作为登记剪贴簿,并且登记剪贴簿生成处理结束。
将参照图28进一步描述登记剪贴簿生成单元103(图26)执行的登记剪贴簿生成处理。
图28中的A示出了在内容选择单元142(图26)处被选择作为关注内容(用于关注剪贴簿的内容)的内容的帧的时间序列。
图28中的B示出了在特征量提取单元144(图26)处提取的、图28的A中的帧的时间序列的特征量的时间序列。
图28中的C示出了在最大似然状态序列估计单元145(图26)处估计的最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中,在关注模型中将观测到图28的B中的关注内容的特征量的时间序列。
现在,关于关注内容的关注模型的最大似然状态序列的实体是如上所述的状态ID的序列。随后,从关于关注内容的关注模型的最大似然状态序列的前端起的第t状态ID是如下状态的状态ID(与帧t对应的状态的状态ID):其中,在最大似然状态序列中将观测到关注内容的第t帧(时间点t处)的特征量。
图28中的D示出了在帧提取单元146(图26)处从关注内容提取的帧。
在图28的D中,“1”和“3”被登记作为关注剪贴簿的登记状态ID,并且从关注内容提取状态ID为“1”和“3”的各个帧。
图28中的E示出了其上登记有从关注内容提取的帧的剪贴簿(登记剪贴簿)。
对于剪贴簿,以保持其时间前后关系的形式(例如作为运动图像)登记从关注内容提取的帧。
如上所述,登记剪贴簿生成单元103提取关注内容的图像的各个帧的特征量,估计在关注模型中将观测到关注内容的特征量的似然最高的情况下、引起状态转移的最大似然状态序列,从关注内容之中提取最大似然状态序列的状态之中的、对应于与在初始剪贴簿生成处理(图25)中由用户指定的模型图上的状态的状态ID(登记状态ID)匹配的状态的帧,并且将从关注内容提取的帧登记在剪贴簿中,因此用户仅在模型图中指定与用户感兴趣的帧(例如,在歌手正在唱歌的场景中,显示靠近面部的帧等)对应的状态,由此可以获得从包含与该帧相同材料的帧收集的剪贴簿。
注意,在图27中,利用属于与关注剪贴簿相关的类别的所有内容作为关注内容来执行登记剪贴簿的生成,但是也可仅利用用户指定的单个内容作为关注内容来执行登记剪贴簿的生成。
另外,对于图27中的登记剪贴簿生成处理,进行了如下布置:其中,在剪贴簿选择单元141处,从存储在初始剪贴簿存储单元102中的初始剪贴簿之中选择关注剪贴簿,并且在该关注剪贴簿中登记从关注内容提取的帧,但是另外地,可从存储在登记剪贴簿存储单元104中的登记剪贴簿之中选择关注剪贴簿。
具体地,在内容存储单元11中存储了新内容的情况下,如果已经存在与该新内容的类别相关的登记剪贴簿,则可通过把该新内容视为关注内容并且还把与关注内容的类别相关的登记剪贴簿看作关注剪贴簿,来执行登记剪贴簿生成处理(图27)。
另外,对于登记剪贴簿生成单元103(图26),可进行如下布置:其中,除了来自关注内容的帧(图像)之外,在帧提取单元146处还提取伴随该帧的音频,并且在帧登记单元147处将其登记在初始剪贴簿上。
另外,在内容存储单元11中存储了新内容的情况下,如果已经存在与该新内容的类别相关的登记剪贴簿,则可利用新内容作为关注内容来执行包括内容结构呈现处理(图13)的初始剪贴簿生成处理(图25),以附加地将新状态ID登记在登记剪贴簿中。
随后,在通过初始剪贴簿生成处理将新状态ID附加地登记在登记剪贴簿中的情况下,可利用该登记剪贴簿作为关注剪贴簿来执行登记剪贴簿生成处理(图27),以从存储在内容存储单元11中的内容,提取其状态ID与附加地登记在登记剪贴簿中的新状态ID匹配的帧,以便将其附加地登记在登记剪贴簿中。
在此情况下,可从内容c提取其状态ID与附加地登记在登记剪贴簿中的新状态ID匹配的另一帧f′,并且将其附加地登记在登记剪贴簿中,其中,已从内容c提取了已经登记在登记剪贴簿中的帧f。
执行帧f′在登记剪贴簿中的该附加登记,以便保持与从内容c提取的帧f的时间前后关系,其中,从内容c提取了帧f′。
注意,在此情况下,需要确定从其提取了登记在登记剪贴簿中的帧f的内容c,因此,需要在登记剪贴簿中连同帧f一起登记作为如下信息的内容ID:其用于确定从其提取了帧f的内容c。
现在,对于根据日本未审查专利申请公布第2005-189832号的高亮场景检测技术,在关于在前阶段的处理中,将从内容的图像提取的运动矢量大小的平均值和离差的每个量化为四个或五个标记,并且还通过神经网络分类器将从内容的音频提取的特征量分类为“鼓掌”、“击球”、“女人的声音”、“男人的声音”、“音乐”、“音乐+声音”以及“噪声”的标记,从而获得图像标记时间序列和音频标记时间序列。
另外,对于根据日本未审查专利申请公布第2005-189832号的高亮场景检测技术,在关于随后阶段的处理中,通过采用标记时间序列进行学习来获得用于检测高亮场景的检测器。
具体地,在内容数据中,利用作为高亮场景的部分的数据作为要用于学习作为检测器的HMM的学习数据,通过将从学习数据获得的图像和音频的各个标记序列提供给HMM,来执行离散HMM(观测值为离散值的HMM)的学习。
随后,通过滑动窗口处理从内容(其是从其检测高亮场景的对象)提取预定长度(窗口长度)的图像和音频的各个标记时间序列,并且将其给予学习之后的HMM,由此获得在该HMM中将观测到标记时间序列的似然。
随后,在似然大于预定阈值的情况下,从其获得该似然的标记序列的部分被检测作为高亮场景的部分。
根据依照日本未审查专利申请公布第2005-189832号的高亮场景检测技术,可以仅通过将内容数据的、作为高亮场景的部分的数据提供给HMM作为学习数据、通过学习来获得作为用于检测高亮场景的检测器的HMM,而无需来自专家的、关于何种场景(诸如特征量、事件等)变成高亮场景的设计先验知识。
结果,例如,将用户感兴趣的场景的数据提供给HMM作为学习数据,使得能够检测用户感兴趣的场景作为高亮场景。
然而,对于根据日本未审查专利申请公布第2005-189832号的高亮场景检测技术,利用特定类型内容作为要检测的内容,从这样的特定类型内容提取适合于例如“鼓掌”、“击球”、“女人的声音”、“男人的声音”、“音乐”、“音乐+声音”或者“噪声”的标记的(音频)特征量。
因此,对于根据日本未审查专利申请公布第2005-189832号的高亮场景检测技术,要检测的内容受限于特定类型内容,并且为了消除这种限制,每次要检测的内容的类型不同时,需要设计(预先确定)并且提取适合于该类型的特征量。另外,需要针对各个内容类型确定要用于检测高亮场景的部分的似然的阈值,但是这样的阈值的确定是困难的。
另一方面,对于图1中的记录器,按原样使用从内容提取的特征量而不进行表示内容中是什么的标记(诸如“鼓掌”等),以执行内容模型(HMM)的学习,并且以自组织方式在内容模型中获得内容结构,从而对于要从内容提取的特征量,可以采用通常用于场景的分类(标识)的通用特征量等,而不是适合于特定类型的特征量。
因此,对于图1中的记录器,甚至在各种类型的内容是要检测的内容的情况下,需要针对各个类型执行内容模型的学习,但是不需要针对各个类型改变要从内容提取的特征量。
因此,根据图1中的记录器的高亮场景检测技术可以说是具有非常高的通用性且不依赖于内容类型的技术。
另外,对于图1中的记录器,用户指定感兴趣的场景(帧),针对内容的各个帧对表示是否是高亮场景的高亮标记进行标记,以根据指定而生成高亮标记序列,并且使用具有高亮标记序列作为组成序列的多流来执行作为高亮检测器的HMM的学习,由此可以在甚至不需要来自专家的、关于何种场景(诸如特征量、事件等)变成高亮场景的设计先验知识的情况下,容易地获得作为高亮检测器的HMM。
以此方式,根据图1中的记录器的高亮检测技术也具有高度通用性,在于不需要来自专家的先验知识。
随后,图1中的记录器学习用户的偏好,检测适合于该偏好的场景(用户感兴趣的场景)作为高亮场景,并且呈现其中收集了这样的高亮场景的摘要。因此,实现了观看和收听内容的所谓的“个性化”,从而拓宽了如何欣赏内容。
[服务器客户机系统的应用]
对于图1中的记录器,实体可被配置为单机设备,但是也可通过分类成作为服务器客户机系统的服务器和客户机来配置。
现在,关于内容模型以及最终地用于内容模型的学习的内容,可采用所有用户共用的内容(内容模型)。
另一方面,用户感兴趣的场景(即,用户的高亮场景)根据用户而不同。
因此,在图1中的记录器被配置为服务器客户机系统的情况下,例如,可通过服务器执行要用于内容模型的学习的内容的管理(存储)。
另外,例如,可通过服务器针对各个内容类别(诸如内容类型等)来执行内容结构的学习(即,内容模型的学习),另外,还可通过服务器执行学习之后的内容模型的管理(存储)。
另外,例如,可通过服务器执行最大似然状态序列的估计,并且还可通过服务器执行作为估计结果的最大似然状态序列的管理(存储),其中,在内容模型中将观测到内容的特征量的似然最高的情况下,该最大似然状态序列引起状态转移。
对于服务器客户机系统,客户机从服务器请求处理所需的信息,并且服务器将从客户机请求的信息提供(传送)到客户机。随后,客户机使用从服务器接收到的信息来执行必要处理。
图29是示出在图1中的记录器包括服务器客户机系统的情况下,该服务器客户机系统的配置示例(第一配置示例)的框图。
在图29中,服务器包括内容存储单元11、内容模型学习单元12以及模型存储单元13,并且客户机包括内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元16。
注意,在图29中,可将内容从内容存储单元11提供给客户机,并且也可从除内容存储单元11之外的未示出的块(例如,调谐器等)来提供。
在图29中,整个内容结构呈现单元14设置在客户机侧,但是关于内容结构呈现单元14,也可进行如下布置:其中,内容结构呈现单元14的部分被配置为服务器,而其余部分被配置为客户机。
图30是示出这样的服务器客户机系统的配置示例(第二配置示例)的框图。
在图30中,作为内容结构呈现单元14(图9)的部分的内容选择单元31至坐标计算单元37设置在服务器,而作为内容结构呈现单元14的其余部分的图绘制单元38和显示控制单元39设置在客户机。
在图30中,客户机将内容ID传送到服务器,该内容ID作为用于确定要用于绘制模型图的内容的信息。
对于服务器,在内容选择单元31处选择由来自客户机的内容ID确定的内容作为关注内容,并且获得用于生成(绘制)模型图所需的状态坐标,并且还生成状态对应图像信息。
另外,对于服务器,将状态坐标和状态对应图像信息传送到客户机,并且对于客户机,使用来自服务器的状态坐标来绘制模型图,并且将该模型图链接到来自服务器的状态对应图像信息。随后,对于客户机,显示模型图。
接下来,对于以上的图29,包括高亮检测器学习单元51的整个摘要生成单元15(图14)设置在客户机侧,但是关于高亮检测器学习单元51(图15),可进行如下布置:其中,高亮检测器学习单元51的部分被配置为服务器,而其余部分被配置为客户机。
图31是示出这样的服务器客户机系统的配置示例(第三配置示例)的框图。
在图31中,作为高亮检测器学习单元51(图15)的部分的内容选择单元61至最大似然状态序列估计单元64设置在服务器,而作为其余部分的高亮标记生成单元65至学习单元67设置在客户机。
在图31中,客户机将要用于高亮检测器的学习的内容的内容ID传送到服务器。
对于服务器,在内容选择单元61处选择由来自客户机的内容ID确定的内容作为关注内容,并且获得关于关注内容的最大似然状态序列。随后,对于服务器,将关于关注内容的最大似然状态序列提供给客户机。
对于客户机,使用来自服务器的最大似然状态序列来生成用于学习的记序列,并且使用该用于学习的标记序列执行高亮检测器的学习。随后,对于客户机,将学习之后的高亮检测器存储在检测器存储单元52中。
接下来,对于以上的图29,包括高亮检测单元53的整个摘要生成单元15(图14)设置在客户机侧,但是关于高亮检测单元53(图18),可进行如下布置:其中,高亮检测单元53的部分被配置为服务器,而其余部分被配置为客户机。
图32是示出这样的服务器客户机系统的配置示例(第四配置示例)的框图。
在图32中,作为高亮检测单元53(图18)的部分的内容选择单元71至最大似然状态序列估计单元74设置在服务器,而作为其余部分的检测标记生成单元75至回放控制单元80设置在客户机。
在图32中,客户机将作为高亮场景检测对象的、关于其要进行检测的内容的内容ID传送到服务器。
对于服务器,在内容选择单元71处选择由来自客户机的内容ID确定的内容作为关注内容,并且获得关于关注内容的最大似然状态序列。随后,对于服务器,将关于关注内容的最大似然状态序列提供给客户机。
对于客户机,使用来自服务器的最大似然状态序列生成检测标记序列,并且使用检测标记序列和存储在检测器存储单元52中的高亮检测器执行高亮场景的检测,并且使用该高亮场景执行摘要内容的生成。
接下来,对于以上的图29,包括初始剪贴簿生成单元101的整个剪贴簿生成单元16(图22)设置在客户机侧,但是关于初始剪贴簿生成单元101(图23),可进行如下布置:其中,初始剪贴簿生成单元101的部分被配置为服务器,而其余部分被配置为客户机。
图33是示出这样的服务器客户机系统的配置示例(第五配置示例)的框图。
在图33中,作为初始剪贴簿生成单元101(图23)的部分的内容选择单元111至坐标计算单元117设置在服务器,而作为其余部分的图绘制单元118、显示控制单元119、状态选择单元121以及选择状态登记单元122设置在客户机。
在图33中,客户机将内容ID传送到服务器,该内容ID作为用于确定要用于绘制模型图的内容的信息。
对于服务器,在内容选择单元111处选择由来自客户机的内容ID确定的内容作为关注内容,并且获得生成(绘制)模型图所需的状态坐标,并且还生成状态对应图像信息。
另外,对于服务器,将状态坐标和状态对应图像信息传送到客户机,并且对于客户机,使用来自服务器的状态坐标来绘制模型图,并且将该模型图链接到来自服务器的状态对应图像信息。随后,对于客户机,显示模型图。
另外,对于客户机,根据用户的操作,选择模型图上的状态作为选择状态,并且识别该选择状态的状态ID。随后,对于客户机,将选择状态的状态ID登记在剪贴簿上,并且将该剪贴簿存储在初始剪贴簿存储单元102中作为初始剪贴簿。
接下来,对于以上的图29,包括登记剪贴簿生成单元103的整个剪贴簿生成单元16(图22)设置在客户机侧,但是关于登记剪贴簿生成单元103(图26),可进行如下布置:其中,登记剪贴簿生成单元103的部分被配置为服务器,而其余部分被配置为客户机。
图34是示出这样的服务器客户机系统的配置示例(第六配置示例)的框图。
在图34中,作为登记剪贴簿生成单元103(图26)的部分的内容选择单元142至最大似然状态序列估计单元145设置在服务器,而作为其余部分的剪贴簿选择单元141、帧提取单元146以及帧登记单元147设置在客户机。
在图34中,客户机将与剪贴簿选择单元141选择的关注剪贴簿相关的类别传送到服务器。
对于服务器,关于来自客户机的类别的内容,估计与该类别相关的内容模型的最大似然状态序列,并且将其连同来自客户机的类别的内容一起提供给客户机。
对于客户机,从来自服务器的内容提取在来自服务器的最大似然状态序列的状态之中、状态ID与登记在剪贴簿选择单元141处选择的关注剪贴簿中的状态ID(登记状态ID)匹配的状态对应的帧,并且将其登记在剪贴簿中。
如上所述,通过划分为服务器和客户机来配置图1中的记录器,由此即使当客户机具有低硬件性能时也可以迅速地执行处理。
注意,在图1中的记录器执行的处理中,只要客户机执行反映了用户偏好的部分的处理,就无需特别限制如何将图1中的记录器划分为服务器和客户机。
[其它记录器的配置示例]
以上关于如下示例进行了描述:其中,使用从基于帧的图像获得的特征量,以通过以自组织方式构造视频内容来学习内容模型,呈现内容结构,或者生成摘要视频或视频片段。然而,在学习内容模型时,可采用除基于帧的图像之外的图像作为特征量,并且例如,可采用音频或图像内的对象作为特征量。
图35是示出应用了本发明的信息处理设备的记录器的另一实施例的配置示例的框图,该记录器使用除基于帧的图像之外的特征量。注意,具有与图1中的记录器相同功能的配置以相同的附图标记来表示,并且将适当地省略其描述。
具体地,图35中的记录器不同于图1中的记录器,在于设置了内容模型学习单元201、模型存储单元202、内容结构呈现单元203、摘要生成单元204以及剪贴簿生成单元205,而不是内容模型学习单元12、模型存储单元13、内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元16。
内容模型学习单元201、模型存储单元202、内容结构呈现单元203、摘要生成单元204以及剪贴簿生成单元205具有与内容模型学习单元12、模型存储单元13、内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元16基本相同的功能。然而,在相应单元处处理的特征量不同在于,在前的记录器处理三类特征量,即除了以上的基于帧的图像的特征量(在下文中,还称为图像特征量)之外的、另外的音频特征量以及对象特征量。注意,这里将关于处理三类特征量的示例进行描述,但是要处理的特征量的种类数目不限于三个,因此要处理的特征量的种类数目可超过三个。
[内容模型学习单元201的配置示例]
图36是示出图35中的内容模型学习单元201的配置示例的框图。注意,对于图36中的内容模型学习单元201的配置,具有与图2中描述的内容模型学习单元12相同功能的配置以相同的附图标记来表示,并且将省略其描述。
内容模型学习单元201提取图像特征量、音频特征量、以及对象特征量作为用于学习的内容的图像的各个帧的特征量,其中,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态将转移的状态转移概率以及将从状态观测到预定观测值的观测概率来规定。随后,内容模型学习单元201使用用于学习的内容的图像特征量、音频特征量以及对象特征量,来执行各个状态转移概率模型的学习。
图像特征量提取单元220与图2中的特征量提取单元22相同,并且另外,图像特征量存储单元26和学习单元27与图2中的图像特征量存储单元和学习单元相同。具体地,用于处理图像特征量的配置与图2中的内容模型学习单元12相同。另外,对于学习单元27,通过学习获得的内容模型被存储在模型存储单元202中的图像模型存储单元202a中。具体地,图像模型存储单元202a与图2中的模型存储单元13相同。注意,存储在图像模型存储单元202a中的内容模型是从图像特征量获得的内容模型,所以在下文中还将称为图像内容模型。
音频特征量提取单元221以与图像的各个帧相关的方式,提取关于用于学习的内容的音频的特征量。
音频特征量提取单元221将来自学习内容选择单元21的用于学习的内容解复用为图像数据和音频数据,以与图像的各个帧相关的方式提取音频特征量,并且将其提供给音频特征量存储单元222。注意,在下文中,关于这里提到的基于帧的音频的特征量将称为音频特征量。
具体地,音频特征量提取单元221包括原始特征量提取单元241、平均计算单元242、离差计算单元243以及连接单元244。
原始特征量提取单元241提取作为用于生成用于音频分类(声音分类)领域的、适合于将音频分类为场景(例如,“音乐”、“非音乐”、“噪声”、“人类语音”、“人类语音+音乐”、“观众”等)的音频特征量的原始特征量。原始特征量被用于音频分类,并且其示例包括通过以诸如大约10毫秒的相对短的时间单位进行计算而从音频信号获得的能量、过零率和谱重心。
更具体地,原始特征量提取单元241使用在例如“Zhu Liu;Jincheng Huang;Yao Wang;Tsuhan Chen,Audio feature extraction and analysis for scene classification(用于场景分类的音频特征提取和分析),First Workshop on Multimedia Signal Processing,1997.,IEEE Volume,Issue,23-25 Jun 1997 Page(s):343-348”和“Brezeale,D.Cook,D.J.,Automatic Video Classification:A Survey of the Literature(自动视频分类:文献综述),IEEE Transactions on Systems,Man,and Cybernetics,Part C:Applications and Reviews,May 2008,Volume:38,Issue:3,pp.416-430”中描述的特征量提取方法提取原始特征量。
平均计算单元242通过从原始特征量时间序列以较长的预定时间单位(通常为1秒或更多)计算作为统计量的平均值而在时间序列中以较长的预定时间单位提取特征量,并且将其提供给连接单元244。
离差计算单元243通过从原始特征量时间序列以较长的预定时间单位(通常为1秒或更多)计算作为统计量的离差而在时间序列中以较长的预定时间单位提取特征量,并且将其提供给连接单元244。
连接单元244对从原始特征量时间序列作为统计量而获得的平均值和离差进行连接,并且将连接结果提供给音频特征量存储单元26作为关注帧的特征量。
更具体地,为了实现下述的处理,需要提取音频特征量,以与以上图像特征量同步。另外,优选地,音频特征量是适于在提取图像特征量的各个时间点通过音频来区分场景的音频特征量,所以根据以下技术生成音频特征量。
具体地,首先,在音调信号是立体语音信号的情况下,原始特征量提取单元241将立体音频信号转换为单耳信号。随后,如图37中的波形图A和B所示,原始特征量提取单元241以0.05秒的步长宽度使0.05秒的时间宽度的窗口逐渐位移,并且提取窗口内的音频信号的原始特征量。这里,对于波形图A和B,在任一图中,纵轴表示音频信号的幅值,并且横轴表示时间。另外,波形图B显示关于波形图A的部分的分辨率,并且对于波形图A,从0(×104)到10(×104)的范围是2.0833秒标度,并且对于波形图B,从0到5000的范围是0.1042秒标度。注意,关于原始特征量,可以从窗口内的音频信号提取多种类型。在这种情况下,原始特征量提取单元241利用这些多种类型作为元素组成矢量,以获得原始特征量。
随后,在提取图像特征量的各个时间点(例如,帧开始时间点、或帧开始时间点与帧结束时间点之间的中点时间点),如图38所示,平均计算单元242和离差计算单元243分别获得在该时间点之前和之后的0.5秒的原始特征量的平均值和离差,并且音频特征量提取单元221取平均值和离差作为在该时间点的音频特征量。
在图38中,从上部可看到,波形图A是示出了用于标识音频信息的采样数据的标识符(提取原始特征量的时间点)Sid与作为原始特征量的能量之间的关系的波形,并且波形图B是示出了用于标识图像的帧的标识符(提取原始特征量的时间点)Vid与图像特征量(GIST)之间的关系的波形。注意,对于波形图A和B,圆圈记号分别表示原始特征量和图像特征量。
另外,波形图C和D分别是用作波形图A和B的来源的波形,并且波形图A和B是放大了波形图C和D的部分的横轴的标识符Sid和Vid的显示间隔的波形。图38示出了音频原始特征量的采样率fq_s是20Hz并且图像特征量的采样率fq_v是3Hz时的示例。
利用下面的表达式(4)来表示与特定图像标识符Vid的帧同步的原始特征量的音频标识符Sid。
Sid=ceil((Vid-1)×(fq_s/fq_v))+1...(4)
这里,ceil()是表示在正无穷方向上取整(等于或大于圆括号内的值的最小整数)的函数。
现在,如果假设用预定常数K为1的表达式(5)来表示用于获得用作音频特征量的平均值的原始特征量的样本数W,则样本数为7。在这种情况下,对于特定图像标识符Vid的帧,用满足表达式(4)的音频标识符Sid作为中心的W=7的原始特征量的平均值和离差成为相应(同步)音频特征量。
W=round(K×(fq_s/fq_v))...(5)
这里,round()是用于转换为最接近的整数(在圆括号内的小数点以下取整)的函数。注意,在表达式(5)中,如果假设常数K=fq_v,则用于获得音频特征量的原始特征量成为1秒的原始特征量。
如此提取的音频特征量被存储在音频特征量存储单元222中。注意,关于音频特征量存储单元222和学习单元223的功能与图像特征量存储单元26和学习单元27相同,所以将省略其描述。另外,由执行学习处理的学习单元223获得的内容模型被存储在模型存储单元202的音频模型存储单元202b中,作为音频内容模型。
对象特征量提取单元224关于用于学习的内容的图像的各个帧以与对象相关的方式提取特征量。
对象特征量提取单元224将来自学习内容选择单元21的用于学习的内容解复用为图像数据和音频数据,并且检测在图像的各个帧中包括的诸如人和脸的对象的存在范围作为矩形图像。随后,对象特征量提取单元224使用检测的矩形图像提取特征量,并且将其提供给对象特征量存储单元225。
具体地,对象特征量提取单元224包括对象提取单元261、帧划分单元262、子区域特征量提取单元263以及连接单元264。
对象提取单元261首先将用于学习的内容解复用为图像数据和音频数据。接下来,对象提取单元261关于图像的各个帧执行对象检测处理,并且假设对象是人的整个身体外形,如在图39中的左上部分示出的,检测由帧F1内的矩形区域构成的对象OB1和OB2。随后,对象提取单元261将由用图39的左下部分中的阴影部分表示的、包括检测到的对象的矩形区域的左上坐标和宽度以及高度构成的矢量(X1,Y1,W1,H1)和(X2,Y2,W2,H2)输出到子区域特征量提取单元263。注意,在已经检测到多个对象并且已经输出多个矩形区域的情况下,该信息被输出到等于检测的数目的一个帧。
同时,帧划分单元262以与帧划分单元23相同的方式将帧划分成例如如在图39的左下部分中示出的子区域R1到R36(6×6),并且将其提供给子区域特征量提取单元263。
如在图39的中下部分示出的,子区域特征量提取单元263对各个子区域Rn中的矩形区域的像素的数目Vn进行计数,并且仅累计检测计数。另外,子区域特征量提取单元263通过将矩形区域的像素数目Vn除以子区域内的像素总数目Sn而使图像大小归一化,并且输出到连接单元264。
如在图39的右下部分示出的,连接单元264对作为矢量分量的在各个子区域Rn中计算出的值Fn=Vn/Sn进行连接,由此生成用作对象特征量的矢量,以输出到对象特征量存储单元225。注意,关于对象特征量存储单元225和学习单元226的功能与图像特征量存储单元26和学习单元27相同,将省略其描述。另外,由执行学习处理的学习单元226获得的内容模型被存储在模型存储单元202的对象模型存储单元202c中作为对象内容模型。
[由内容模型学习单元201执行的内容模型学习处理]
接下来,将描述图36中的内容模型学习单元201执行的内容学习处理。图36中的内容模型学习单元201执行的内容学习处理根据特征量的类型包括图像内容模型学习处理、音频内容模型学习处理以及对象内容模型学习处理。其中,图像内容模型学习处理与参照图8描述的内容模型学习处理相同,并且生成的图像内容模型被简单地存储在图像模型存储单元202a中,所以将省略其描述。
接下来,将参照图40中的流程图来描述图36中的内容模型学习单元201执行的音频内容模型学习处理。注意,图40中的步骤S201中的处理与图8中的步骤S11中处理相同,所以将省略其描述。
在步骤S202中,音频特征量提取单元221的原始特征量提取单元241从来自学习内容选择单元21的用于学习的内容之中,选择尚未被选择作为用于关注学习的内容(在下文中,还称为“关注内容”)的用于学习的内容之一作为关注内容。
随后,处理从步骤S202进行到步骤S203,其中,原始特征量提取单元241从关注内容的帧之中,选择尚未被选择作为关注帧的、时间上最在前的帧作为关注帧,并且处理进行到步骤S204。
在步骤S204中,如参照图37和38所描述的,原始特征量提取单元241从关注内容的音频源提取用于生成对应于关注帧的音频特征量的原始特征量。随后,原始特征量提取单元241将提取的原始特征量提供给平均计算单元242和离差计算单元243。
在步骤S205中,平均计算单元242在提供的原始特征量之中计算关于关注帧的平均值,并且将其提供给连接单元244。
在步骤S206中,离差计算单元243在提供的原始特征量之中计算关于关注帧的离差,并且将其提供给连接单元244。
在步骤S207中,连接单元244对从平均计算单元242提供的关注帧的原始特征量的平均值、和从离差计算单元243提供的关注帧的原始特征量的离差进行连接,由此构成特征量矢量。随后,连接单元244生成该特征量矢量作为关注帧的音频特征量,并且处理进行到步骤S208。
在步骤S208中,帧划分单元23确定关注内容的所有帧是否都已被选择作为关注帧。
在步骤S208中确定在关注内容的帧中存在尚未被选择作为关注帧的帧的情况下,处理返回至步骤S203,并且此后重复同一处理。
另外,在步骤S208中确定关注内容的所有帧都已被选择作为关注帧的情况下,处理进行到步骤S209,其中,连接单元244将关于关注内容获得的关注内容的各个帧的特征量的(时间序列)提供并存储到音频特征量存储单元222。
随后,处理从步骤S209进行到步骤S210,其中,原始特征量提取单元241确定来自学习内容选择单元21的所有用于学习的内容是否都已被选择作为关注内容。
在步骤S210中确定在用于学习的内容中存在尚未被选择作为关注内容的用于学习的内容的情况下,处理返回至步骤S202,并且此后重复同一处理。
另外,在步骤S210中确定所有用于学习的内容都已被选择作为关注内容的情况下,处理进行到步骤S211,其中,学习单元223使用存储在音频特征量存储单元222中的用于学习的内容的音频特征量(各个帧的音频特征量的时间序列)来执行音频HMM的学习。
随后,学习单元223以与用于学习的内容的类别相关的方式,将学习之后的音频HMM输出(提供)给音频模型存储单元202b作为音频内容模型,并且音频内容模型学习处理结束。
注意,音频内容模型学习处理可在任意定时开始。
根据以上音频内容模型学习处理,对于音频HMM,以自组织的方式获取隐藏在用于学习的内容中的内容结构(例如,通过音频等创建的结构等)。
结果,用作在音频内容模型学习处理中获得的音频内容模型的音频HMM的各个状态对应于通过学习获取的内容结构的元素,并且状态转移表示内容结构的元素之间的时间转移。
随后,音频内容模型的状态以集合方式表示在音频特征量空间(在音频特征量提取单元221处提取的音频特征量的空间)中具有接近的空间距离和相似的时间前后关系的帧组(即,“相似场景”)。
接下来,将参照图41中的流程图来描述图36中的内容模型学习单元201执行的对象内容模型学习处理。注意,图41的步骤S231中的处理与图8的步骤S11中的处理相同,所以将省略其描述。
在步骤S232中,对象特征量提取单元224的帧划分单元262从来自学习内容选择单元21的用于学习的内容之中,选择尚未被选择作为用于关注学习的内容(在下文中,还称为“关注内容”)的用于学习的内容之一作为关注内容。
随后,处理从步骤S232进行到步骤S233,其中,帧划分单元262从关注内容的帧之中,选择尚未被选择作为关注帧的、时间上最在先的帧作为关注帧,并且处理进行到步骤S234。
在步骤S234中,帧划分单元262将关注帧划分成多个子区域,并且将其提供给子区域特征量提取单元263,并且处理进行到步骤S235。
在步骤S235中,对象提取单元261检测关注帧中包括的对象,取包括检测到的对象的区域作为矩形区域,并且将由左上坐标、矩形区域的宽度和高度构成的矢量输出到子区域特征量提取单元263。
在步骤S263中,子区域特征量提取单元263关于来自帧划分单元262的各个子区域Rn、对构成包括对象的矩形区域的像素数目Vn进行计数。另外,子区域特征量提取单元263通过将构成各个子区域Rn中的矩形区域的像素数目Vn除以子区域Rn中包括的像素总数目Sn执行归一化,并且将其提供给连接单元264作为子区域特征量Fn=Vn/Sn
在步骤S237中,连接单元264通过对来自子区域特征量提取单元263的、构成关注帧的多个子区域Rn的各个子区域的子区域特征量Fn进行连接,生成关注帧的对象特征量,并且处理进行到步骤S238。
在步骤S238中,帧划分单元262确定关注内容的所有帧是否都已被选择作为关注帧。
在步骤S238中确定在关注内容的帧中存在尚未被选择作为关注帧的帧的情况下,处理返回至步骤S233,并且此后重复同一处理。
另外,在步骤S238中确定关注内容的所有帧已被选择作为关注帧的情况下,处理进行到步骤S239,其中,连接单元244将关于关注内容获取的关注内容的各个帧的对象特征量的(时间序列)提供并存储到对象特征量存储单元225。
随后,处理从步骤S239进行到步骤S240,其中,帧划分单元262确定来自学习内容选择单元21的所有用于学习的内容是否都已被选择作为关注内容。
在步骤S240中确定在用于学习的内容中存在尚未被选择作为关注内容的用于学习的内容的情况下,处理返回至步骤S232,并且此后重复同一处理。
另外,在步骤S240中确定所有用于学习的内容都已被选择作为关注内容的情况下,处理进行到步骤S241。在步骤S241中,学习单元226使用存储在对象特征量存储单元225中的用于学习的内容的对象特征量(各个帧的对象特征量的时间序列),执行对象HMM的学习。
随后,学习单元223以与用于学习的内容的类别相关的方式,将学习之后的对象HMM输出(提供)到对象模型存储单元202c作为对象内容模型,并且对象内容模型学习处理结束。
注意,对象内容模型学习处理可以在任意定时开始。
根据以上对象内容模型学习处理,对于对象HMM,以自组织的方式获取隐藏在用于学习的内容中的内容结构(例如,通过对象的出现/消失创建的结构)。
结果,用作在对象内容模型学习处理中获得的对象内容模型的对象HMM的各个状态对应于通过学习获得的内容结构的元素,并且状态转移表示内容结构的元素之间的时间转移。
随后,对象内容模型的状态以集合方式表示在对象特征量空间(在对象特征量提取单元224(图36)处提取的对象特征量的空间)中具有接近的空间距离和相似的时间前后关系的帧组(即,“相似场景”)。
接下来,将描述内容结构呈现单元203的配置示例。内容结构呈现单元203的配置示例例如将成为如下的配置:去掉稍后描述的初始剪贴簿生成单元371(图48)的状态选择单元419和选择状态登记单元420。这是因为内容结构呈现单元203被配置成设置有对应于图像内容模型、音频内容模型以及对象内容模型的每个的内容结构呈现单元14。
另外,内容结构呈现单元203的内容结构呈现处理是如下的处理:用于单独地或分别在独立的窗口上显图像内容模型、音频内容模型以及对象内容模型的各个内容结构的图图像。因此,通过与内容结构呈现单元14(图9)的以上内容结构呈现处理(图13)相同的处理,实现图像内容模型、音频内容模型以及对象内容模型的每一个。
根据以上原因,关于内容结构呈现单元203的配置示例和其内容结构呈现处理,将省略其描述。
[摘要生成单元204的配置示例]
图42是示出图35中的摘要生成单元204的配置示例的框图。
摘要生成单元204包括高亮检测器学习单元291、检测器存储单元292以及高亮检测单元293。
高亮检测器学习单元291、检测器存储单元292以及高亮检测单元293基本上具有与高亮检测器学习单元51、检测器存储单元52以及高亮检测单元53相同的功能,但是它们中的任一个可执行用于处理图像内容模型、音频内容模块以及对象内容模型的处理。
[高亮检测器学习单元291的配置示例]
图43是示出图42中的高亮检测器学习单元291的配置示例的框图。注意,对于图43中的高亮检测器学习单元291的配置,用相同的附图标记表示具有与图15中的高亮检测器学习单元51的配置相同的功能的配置,并且将适当地省略其描述。
具体地,高亮检测器学习单元291与提供了可以处理图像特征量、音频特征量以及对象特征量的模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64的高亮检测器学习单元51的配置不同。更具体地,高亮检测器学习单元291包括可以处理图像特征量的图像模型选择单元311、图像特征量提取单元312以及图像最大似然状态序列估计单元313。另外,高亮检测器学习单元291包括可以处理音频特征量的音频模型选择单元316、音频特征量提取单元317以及音频最大似然状态序列估计单元318。另外,高亮检测器学习单元291包括可以处理对象特征量的对象模型选择单元319、对象特征量提取单元320以及对象最大似然状态序列估计单元321。
然而,取图像内容模型作为对象的图像模型选择单元311、图像特征量提取单元312以及图像最大似然状态序列估计单元313与模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64相同。另外,除了要处理的特征量是音频特征量之外,音频模型选择单元316、音频特征量提取单元317以及音频最大似然状态序列估计单元318基本上具有与模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64相同的功能。另外,除了要处理的特征量是对象特征量之外,对象模型选择单元319、对象特征量提取单元320以及对象最大似然状态序列估计单元321也基本上具有与模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64相同的功能。
另外,图像模型选择单元311选择来自模型存储单元202的图像模型存储单元202a的图像内容模型之一。音频模型选择单元316选择来自模型存储单元202的音频模型存储单元202b的音频内容模型之一。对象模型选择单元319选择来自模型存储单元202的对象模型存储单元202c的对象内容模型之一。
另外,图43中的高亮检测器学习单元291包括学习标记生成单元314,而不是学习标记生成单元66。学习标记生成单元314基本上具有与学习标记生成单元66相同的功能。学习标记生成单元314使图像最大似然状态序列估计单元313获得状态ID序列,其是在用作关注模型的图像内容模型中观测关注内容的图像特征量时的最大似然状态序列(还称为图像最大似然状态序列)。学习标记生成单元314使音频最大似然状态序列估计单元318获得状态ID序列,其是在用作关注模型的音频内容模型中观测关注内容的音频特征量时的最大似然状态序列(还称为音频最大似然状态序列)。学习标记生成单元314使对象最大似然状态序列估计单元319获得状态ID序列,其是在用作关注模型的对象内容模型中观测关注内容的对象特征量时的最大似然状态序列(还称为对象最大似然状态序列)。学习标记生成单元314获得来自高亮标记生成单元65的高亮标记序列。随后,学习标记生成单元314生成作为图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的状态ID序列、和由高亮标记序列构成的用于学习的标记序列。
具体地,学习标记生成单元314生成由图像、音频以及对象的每个的最大似然状态序列的状态ID和高亮标记序列中的各个时间点t处的状态ID、以及高亮标记合成的多流的用于学习的标记序列。
因此,学习标记生成单元314生成由以上表达式(2)中的流的数目M=4的组成序列构成的多流的用于学习的标记序列。随后,学习标记生成单元314将多流的用于学习的标记序列提供给学习单元315。
学习单元315使用来自学习标记生成单元314的用于学习的标记序列,以根据Baum-Welch重估计方法来执行例如作为遍历型多流HMM的高亮检测器的学习。
随后,学习单元315以与内容选择单元61处选择的关注内容的类别相关的方式,将学习之后的高亮检测器提供并存储到检测器存储单元292。
注意,对于学习单元315处的多流HMM的学习,如上所述,通过M=4的四种类型的组成序列进行配置,所以对于作为W1到W4的每个组成序列的序列权重,例如,在全部被相等分配的情况下,它们中的任一个可以被设置为1/4(=0.25)。另外,如果对流的数目M进行归纳,则在各个序列的序列权重被设置为相等的情况下,任何序列权重可以被设置为1/M。
[高亮检测器学习处理]
图44是用于描述图43中的高亮检测器学习单元291执行的处理(高亮检测器学习处理)的流程图。
在步骤S261中,内容选择单元61从存储在内容存储单元11中的内容之中,选择通过用户的操作指定回放的内容作为关注内容(用于关注检测器学习的内容)。
随后,内容选择单元61将关注内容提供给图像特征量提取单元312、音频特征量提取单元317以及对象特征量提取单元320的每个。另外,内容选择单元61识别关注内容的类别,并且将其提供给图像模型选择单元311、音频模型选择单元316以及对象模型选择单元319,并且处理从步骤S261进行到步骤S262。
在步骤S262中,图像模型选择单元311从存储在图像模型存储单元202a中的图像内容模型之中,选择与来自内容选择单元61的关注内容的类别相关的图像内容模型作为关注模型。
随后,图像模型选择单元311将关注模型提供给图像最大似然状态序列估计单元313,并且处理从步骤S262进行到步骤S263。
在步骤S263中,图像特征量提取单元312提取从内容选择单元61提供的关注内容的各个帧的图像特征量,并且将关注内容的各个帧的图像特征量(的时间序列)提供给图像最大似然状态序列估计单元313。随后,处理进行到步骤S264。
在步骤S264中,图像最大似然状态序列估计单元313估计图像最大似然状态序列,在来自图像模型选择单元311的关注模型中将观测到来自图像特征量提取单元312的关注内容的图像特征量(的时间序列)的似然最高的情况下,该图像最大似然状态序列引起状态转移。
随后,图像最大似然状态序列估计单元313将关于关注内容的关注模型的图像最大似然状态序列提供给学习标记生成单元314,并且处理从步骤S264进行到步骤S265。
在步骤S265中,音频模型选择单元316从存储在音频模型存储单元202b中的音频内容模型之中,选择与来自内容选择单元61的关注内容的类别相关的音频内容模型作为关注模型。
随后,音频模型选择单元316将关注模型提供给音频最大似然状态序列估计单元318,并且处理从步骤S265进行到步骤S266。
在步骤S266中,音频特征量提取单元317提取从内容选择单元61提供的关注内容的各个帧的音频特征量,并且将关注内容的各个帧的音频特征量(的时间序列)提供给音频最大似然状态序列估计单元318。随后,处理进行到步骤S267。
在步骤S267中,音频最大似然状态序列估计单元318估计音频最大似然状态序列,在来自音频模型选择单元316的关注模型中将观测到来自音频特征量提取单元317的关注内容的音频特征量(的时间序列)的似然最高的情况下,该音频最大似然状态序列引起状态转移。
随后,音频最大似然状态序列估计单元318将关于关注内容的关注模型的音频最大似然状态序列提供给学习标记生成单元314,并且处理从步骤S267进行到步骤S268。
在步骤S268中,对象模型选择单元319从存储在对象模型存储单元202c中的对象内容模型之中,选择与来自内容选择单元61的关注内容的类别相关的对象内容模型作为关注模型。
随后,对象模型选择单元319将关注模型提供给对象最大似然状态序列估计单元321,并且处理从步骤S268进行到步骤S269。
在步骤S269中,对象特征量提取单元320提取从内容选择单元61提供的关注内容的各个帧的对象特征量,并且将关注内容的各个帧的对象特征量(的时间序列)提供给对象最大似然状态序列估计单元321。随后,处理进行到步骤S270。
在步骤S270中,对象最大似然状态序列估计单元321估计对象最大似然状态序列,在来自对象模型选择单元319的关注模型中将观测到来自对象特征量提取单元320的关注内容的对象特征量(的时间序列)的似然最高的情况下,该对象最大似然状态序列引起状态转移。
随后,对象最大似然状态序列估计单元321将关于关注内容的关注模型的对象最大似然状态序列提供给学习标记生成单元314,并且处理从步骤S270进行到步骤S271。
在步骤S271中,高亮标记生成单元65根据用户的操作,对在内容选择单元61处选择的关注内容的各个帧执行标记高亮的标记,由此生成关于关注内容的高亮标记序列。
随后,高亮标记生成单元65将关于关注内容生成的高亮标记序列提供给学习标记生成单元314,并且处理进行到步骤S272。
在步骤S272中,学习标记生成单元314获得来自图像最大似然状态序列估计单元313的关于关注内容的关注模型的图像最大似然状态序列的状态ID序列。另外,学习标记生成单元314获得来自音频最大似然状态序列估计单元318的关于关注内容的关注模型的音频最大似然状态序列的状态ID序列。另外,学习标记生成单元314获得来自对象最大似然状态序列估计单元321的关注模型的对象最大似然状态序列的状态ID序列。另外,学习标记生成单元314从高亮标记生成单元65获得高亮标记序列。随后,学习标记生成单元314对这些图像最大似然状态序列、音频最大似然状态序列、对象最大似然状态序列以及高亮标记序列的状态ID序列的四个序列进行组合,以生成用于学习的标记序列。
随后,学习标记生成单元314将用于学习的标记序列提供给学习单元315,并且处理从步骤S272进行到步骤S273。
在步骤S273中,学习单元315使用来自学习标记生成单元314的用于学习的标记序列,执行作为多流HMM的高亮检测器的学习,并且处理进行到步骤S274。
在步骤S274中,学习单元315以与在内容选择单元61处选择的关注内容的类别相关的方式,将学习之后的高亮检测器提供并存储到检测器存储单元292。
如上所述,通过使用图像最大似然状态序列、音频最大似然状态序列、对象最大似然状态序列以及高亮标记序列的状态ID序列的四个用于学习的标记序列进行多流HMM的学习,获得高亮检测器。
因此,通过参考高亮检测器的各个状态的高亮序列的观测概率,可确定在该状态中观测到的(高概率的)、与内容模型的状态对应的帧是否是用户感兴趣的场景(高亮场景)。
[高亮检测单元293的配置示例]
图45是示出图42中的高亮检测单元293的配置示例的框图。注意,对于图45中的高亮检测单元293,用相同的附图标记来表示包括与图18中的高亮检测单元53中的配置相同的功能的配置,并且将省略其描述。
图45中的高亮检测单元293基本上具有与图18中的高亮检测单元53相同的功能,但是不同之处在于检测标记是响应于图像特征量、音频特征量以及对象特征量中的每个生成的。
具体地,图像模型选择单元341、图像特征量提取单元342以及图像最大似然状态序列估计单元343与图43中的高亮检测器学习单元291的图像模型选择单元311、图像特征量提取单元312以及图像最大似然状态序列估计单元313相同。另外,音频模型选择单元350、音频特征量提取单元351以及音频最大似然状态序列估计单元352与图43中的高亮检测器学习单元291的音频模型选择单元316、音频特征量提取单元317以及音频最大似然状态序列估计单元318相同。另外,对象模型选择单元353、对象特征量提取单元354以及对象最大似然状态序列估计单元355与图43中的高亮检测器学习单元291的对象模型选择单元319、对象特征量提取单元320以及对象最大似然状态序列估计单元321相同。
根据这样的配置,将关于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的每个的状态ID序列提供给检测标记生成单元344。
检测标记生成单元344生成检测标记序列,其中,该检测标记序列由状态ID序列和仅仅由高亮标记构成的高亮标记序列构成,其中,该状态序列ID是关于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列。
具体地,检测标记生成单元344生成具有与图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的序列相同长度(序列长度)的高亮标记序列,作为要给予高亮检测器的所谓的空序列,该高亮标记序列由仅仅表示是除高亮场景之外的场景的高亮标记构成。
另外,通过将作为图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的状态ID、在作为空序列的高亮标记序列中的各个时间点t处的状态ID以及高亮标记进行组合,检测标记生成单元344生成多流的检测标记序列。
随后,检测标记生成单元344将检测标记序列提供给最大似然状态序列估计单元346。
注意,在获得检测标记序列的观测概率时,关于图像最大似然状态序列、音频最大似然状态序列、对象最大似然状态序列、以及用作空序列的高亮标记序列的序列权重W1到W4,采用(W1∶W2∶W3∶W4)=(1/3∶1/3∶1/3∶0)。因此,对于最大似然状态序列估计单元346,在仅考虑关于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列、而不考虑作为空序列输入的高亮标记序列的情况下,执行高亮关系状态序列的估计。另外,如果对流的数目M的情况下的权重进行归纳,则在高亮序列的权重被设置为0并且除了高亮序列之外的序列权重被设置为相等的情况下,任何序列权重可以被设置为1/(M-1)。
另外,对于检测器选择单元345、最大似然状态序列估计单元346、高亮场景检测单元347、摘要内容生成单元348以及回放控制单元349,要处理的多流检测标记是由四个流构成的检测标记序列。除了这一点之外,它们基本上具有与检测器选择单元76、最大似然状态序列估计单元77、高亮场景检测单元78、摘要内容生成单元79以及回放控制单元80相同的功能,所以将省略其描述。
[高亮检测处理]
图46是用于描述图45中的高亮检测单元293的处理(高亮检测处理)的流程图。
在步骤S291中,内容选择单元71从存储在内容存储单元11中的内容之中,选择作为要从其检测高亮场景的内容的关注内容(用于关注高亮检测的内容)。
随后,内容选择单元71将关注内容提供给图像特征量提取单元342、音频特征量提取单元351以及对象特征量提取单元354。另外,内容选择单元71识别关注内容的类别,并将其提供给图像模型选择单元341、音频模型选择单元350、对象模型选择单元353以及检测器选择单元345,并且处理从步骤S291进行到步骤S292。
在步骤S292中,图像模型选择单元341从存储在图像模型存储单元202a中的图像内容模型之中,选择与来自内容选择单元71的关注内容的类别相关的图像内容模型作为关注模型。
随后,图像模型选择单元341将关注模型提供给图像最大似然状态序列估计单元343,并且处理从步骤S292进行到步骤S293。
在步骤S293中,图像特征量提取单元342提取从内容选择单元71提供的关注内容的各个帧的图像特征量,将其提供给图像最大似然状态序列估计单元343,并且处理进行到步骤S294。
在步骤S294中,图像最大似然状态序列估计单元343估计图像最大似然状态序列(关于关注内容的关注模型的图像最大似然状态序列),在来自图像模型选择单元341的关注模型中将观测到来自图像特征量提取单元342的关注内容的图像特征量(的时间序列)的似然最高的情况下,该图像最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元294将关于关注内容的关注模型的图像最大似然状态序列提供给检测标记生成单元344,并且处理从步骤S294进行到步骤S295。
在步骤S295中,音频模型选择单元350从存储在音频模型存储单元202b中的音频内容模型之中,选择与来自内容选择单元71的关注内容的类别相关的音频内容模型作为关注模型。
随后,音频模型选择单元350将关注模型提供给音频最大似然状态序列估计单元352,并且处理从步骤S295进行到步骤S296。
在步骤S296中,音频特征量提取单元351提取从内容选择单元71提供的关注内容的各个帧的音频特征量,将其提供给音频最大似然状态序列估计单元352,并且处理进行到步骤S297。
在步骤S297中,音频最大似然状态序列估计单元352估计音频最大似然状态序列(关于关注内容的关注模型的音频最大似然状态序列),在来自音频模型选择单元350的关注模型中将观测到来自音频特征量提取单元351的关注内容的音频特征量(的时间序列)的似然最高的情况下,该音频最大似然状态序列引起状态转移。
随后,音频最大似然状态序列估计单元352将关于关注内容的关注模型的音频最大似然状态序列提供给检测标记生成单元344,并且处理从步骤S297进行到步骤S298。
在步骤S298中,对象模型选择单元353从存储在对象模型存储单元202c中的对象内容模型之中,选择与来自内容选择单元71的关注内容的类别相关的对象内容模型作为关注模型。
随后,对象模型选择单元353将关注模型提供给对象最大似然状态序列估计单元355,并且处理从步骤S298进行到步骤S299。
在步骤S299中,对象特征量提取单元354提取从内容选择单元71提供的关注内容的各个帧的对象特征量,将其提供给对象最大似然状态序列估计单元355,并且处理进行到步骤S300。
在步骤S300中,对象最大似然状态序列估计单元355估计对象最大似然状态序列(关于关注内容的关注模型的对象最大似然状态序列),在来自对象模型选择单元353的关注模型中将观测到来自对象特征量提取单元354的关注内容的对象特征量(的时间序列)的似然最高的情况下,该对象最大似然状态序列引起状态转移。
随后,对象最大似然状态序列估计单元355将关于关注内容的关注模型的对象最大似然状态序列提供给检测标记生成单元344,并且处理从步骤S300进行到步骤S301。
在步骤S301中,例如,检测标记生成单元344生成由仅仅表示是除高亮场景之外的场景的高亮标记(值为“0”的高亮标记)构成的高亮标记序列作为空高亮标记序列,并且处理进行到步骤S302。
在步骤S302中,检测标记生成单元344生成作为关于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的状态ID序列、以及空高亮序列的四个序列的检测标记序列。
随后,检测标记生成单元344将检测标记序列提供给最大似然状态序列估计单元346,并且处理从步骤S302进行到步骤S303。
在步骤S303中,检测器选择单元345从存储在检测器存储单元292中的高亮检测器之中,选择与来自内容选择单元71的关注内容的类别相关的高亮检测器作为关注检测器。随后,检测器选择单元345从存储在检测器存储单元292中的高亮检测器之中,获得关注检测器,将其提供给最大似然状态序列估计单元346和高亮检测单元347,并且处理从步骤S303进行到步骤S304。
在步骤S304中,最大似然状态序列估计单元346估计最大似然状态序列(高亮关系状态序列),在来自检测器选择单元345的关注检测器中将观测到来自检测标记生成单元344的检测标记序列的似然最高的情况下,该最大似然状态序列引起状态转移。
随后,最大似然状态序列估计单元346将高亮关系状态序列提供给高亮检测单元347,并且处理从步骤S304进行到步骤S305。
在步骤S305中,高亮场景检测单元347基于来自最大似然状态序列估计单元346的高亮关系状态序列的各个状态的高亮标记观测概率,来执行用于从关注内容检测高亮场景而输出高亮标志的高亮场景检测处理。
随后,在完成高亮检测处理之后,处理从步骤S305进行到步骤S306,其中,摘要内容生成单元348从来自内容选择单元71的关注内容的帧,提取由高亮场景检测单元347输出的高亮标志确定的高亮场景的帧。
另外,摘要内容生成单元348使用从关注内容的帧提取的高亮场景帧来生成关注内容的摘要内容,将其提供给回放控制单元349,并且处理从步骤S306进行到步骤S307。
在步骤S307中,回放控制单元49执行回放控制,用于播放来自摘要内容生成单元348的摘要内容。
注意,在步骤S305中的高亮场景检测处理与图20中的步骤S89中的处理(即,参照图21中的流程图描述的处理)相同,所以将省略其描述。
如上所述,高亮检测单元293估计如下的最大似然状态序列的高亮关系状态序列:其中,在高亮检测器处,从作为图像、音频以及对象最大似然状态序列的状态ID序列、和空高亮标记序列将观测到检测标记序列。随后,高亮检测单元293基于该高亮关系状态序列的各个状态的高亮标记观测概率,从关注内容检测高亮场景帧,并且使用该高亮场景生成摘要内容。
另外,通过使用用于学习的标记序列执行HMM的学习来获得高亮检测器,该用于学习的标记序列由作为关于内容的内容模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的状态ID序列、以及通过用户的操作生成的高亮标记序列的四个序列的组合构成。
因此,甚至在用于生成摘要内容的关注内容并未用于内容模型或高亮检测器的学习的情况下,如果使用具有与关注内容相同类别的内容来执行内容模型或高亮检测器的学习,则可以使用内容模型和高亮检测器,容易地获得通过收集用户感兴趣的场景作为高亮场景而生成的摘要(摘要内容)。
[剪贴簿生成单元205的配置示例]
图47是示出图35中的剪贴簿生成单元205的配置示例的框图。
剪贴簿生成单元205包括初始剪贴簿生成单元371、初始剪贴簿存储单元372、登记剪贴簿生成单元373、登记剪贴簿存储单元374以及回放控制单元375。
初始剪贴簿生成单元371、初始剪贴簿存储单元372、登记剪贴簿生成单元373、登记剪贴簿存储单元374以及回放控制单元375基本上与初始剪贴簿生成单元101至回放控制单元105相同。然而,它们中的任一个执行既与基于图像特征量的图像内容模型又与基于音频特征量的音频内容模型、以及基于对象特征量的对象内容模型对应的处理。
[初始剪贴簿生成单元371的配置示例]
图48是示出图47中的初始剪贴簿生成单元371的配置示例的框图。注意,对于图48中的初始剪贴簿生成单元371的配置,用相同的附图标记表示具有与图23中的初始剪贴簿生成单元101相同功能的配置,并且将适当地省略其描述。
另外,在图48中,在初始剪贴簿生成单元371中,图像模型选择单元411、图像特征量提取单元412、图像最大似然状态序列估计单元413、图像状态对应图像信息生成单元414、图像状态间距离计算单元415、图像坐标计算单元416以及图像图绘制单元417分别与模型选择单元112、特征量提取单元113、最大似然状态序列估计单元114、状态对应图像信息生成单元115、状态间距离计算单元116、坐标计算单元117以及图绘制单元118相同,所以将省略其描述。
具体地,图像模型选择单元411至图像图绘制单元417以与内容结构呈现单元14(图9)的模型选择单元32至图绘制单元38相同的方式进行配置,并且执行基于图13中描述的图像特征量的内容结构呈现处理。
另外,除了要处理的对象是音频特征量之外,音频模型选择单元421、音频特征量提取单元422、音频最大似然状态序列估计单元423、音频状态对应图像信息生成单元424、音频状态间距离计算单元425、音频坐标计算单元426以及音频图绘制单元427执行与图像模型选择单元411、图像特征量提取单元412至图像图绘制单元417相同的处理。
另外,除了要处理的对象是对象特征量之外,对象模型选择单元428、对象特征量提取单元429、对象最大似然状态序列估计单元430、对象状态对应图像信息生成单元431、对象状态间距离计算单元432、对象坐标计算单元433以及对象图绘制单元434执行与图像模型选择单元411至图像图绘制单元417相同的处理。
另外,显示控制单元418、状态选择单元419以及选择状态登记单元420分别执行与显示控制单元119、状态选择单元121以及选择状态登记单元122相同的处理。
因此,对于初始剪贴簿生成单元371,通过执行的内容结构呈现处理,基于图像特征量、音频特征量以及对象特征量的每个,在未示出的显示器上显示模型图(图11、图12)。随后,在通过用户的操作指定了基于图像特征量、音频特征量以及对象特征量的每个的模型图上的状态的情况下,指定状态(选择状态)的状态ID被登记在(空白)剪贴簿上。
图49是示出由显示控制单元418显示的用户界面示例的图,显示控制单元418执行用于用户指定模型图上的状态的显示控制。注意,用相同的附图标记表示具有与图24中的窗口131中的显示器相同功能的显示器,并且将适当地省略其描述。
在图49中,基于在图像图绘制单元417处生成的图像特征量的模型图462、和基于在音频图绘制单元427处生成的音频特征量的模型图463显示在窗口451上。注意,对于图49中的示例,虽然未示出,但是显然可以一起显示基于在对象图绘制单元434处生成的对象特征量的模型图。另外,在处理除图像特征量、音频特征量以及对象特征量之外的其它特征量的情况下,还可以进一步绘制和显示基于其它特征量的模型图。另外,还可以在不同窗口上显示各个模型图。
窗口451内的模型图462和463上的状态可以通过用户指定来聚焦。例如,可通过使用诸如鼠标等的指向设备点击、或通过将根据指向设备的操作而移动的光标移动到要聚焦的状态的位置等,来执行用户对状态的指定。
另外,在模型图462和463上的状态中,可以以不同的显示格式(诸如不同的颜色等),显示已经为选择状态的状态以及还不是选择状态的状态。
对于在窗口451的下部中的显示,与图24中的窗口131不同点在于提供了图像状态ID输入栏471和音频状态ID输入栏472,而不是状态ID输入栏133。
在基于图像特征量的模型图462上的状态中,在图像状态ID输入栏471上显示聚焦状态的状态ID。
在基于音频特征量的模型图463上的状态中,在音频状态ID输入栏472上显示聚焦状态的状态ID。
注意,用户还可以在图像状态ID输入栏471和音频状态输入栏472上直接输入状态ID。另外,在显示基于对象特征量的模型图的情况下,还一起显示对象状态ID输入栏。
在模型图462和463上的状态中的聚焦状态被链接到在内容结构呈现处理处生成的状态对应图像信息的情况下,窗口461被打开。随后,显示链接到聚焦状态的状态对应图像信息。
注意,在窗口461上可以显示链接到模型图462和463上的聚焦状态以及位于接近聚焦状态的状态中的每个的状态对应图像信息。另外,在窗口461上在时间上依次或者在空间上并行地显示链接到模型图462和463上的所有状态的各个状态的状态对应图像信息。
用户可以通过点击状态等来指定显示在窗口451上的模型图462和463上的任意状态。
在用户指定状态时,显示控制单元418(图48)在窗口461上显示链接到用户指定的状态的状态对应图像信息。
因此,用户可以确认与模型图462和463上的状态对应的帧的图像。
对于图48中的初始剪贴簿生成单元371,由选择状态登记单元420在初始剪贴簿中登记图像模型图、音频模型图以及对象模型图的选择状态的状态ID。
具体地,由图48中的初始剪贴簿生成单元371进行的初始剪贴簿生成处理与关于图像模型图(基于图像特征量的模型图)、音频模型图(基于音频特征量的模型图)以及对象模型图(基于对象特征量的模型图)的每个而参照图25描述的处理相同,所以将省略其描述。
然而,对于图48中的初始剪贴簿生成单元371,在图像模型图、音频模型图以及对象模型图中从某一模型图选择的(指定的)选择状态和从其它模型图选择的选择状态对应于同一帧的情况下,以相关的方式在初始剪贴簿中登记这些选择状态(的状态ID)。
具体地,例如,现在,注意图像模型图和音频模型图。
关注内容的各个帧对应于图像模型图上的任何状态(在图像最大似然状态序列中观测的帧的图像特征量的状态),并且还对应于音频模型图的任何状态。
因此,可存在以下情况:关注内容的同一帧对应于从图像模型图选择的选择状态、和从音频模型图选择的选择状态。
在这种情况下,以相关的方式在初始剪贴簿中登记对应于同一帧的从图像模型图选择的选择状态、和从音频模型图选择的选择状态。
除了同一帧对应于从图像模型图、音频模型图以及对象模型图中任意两个模型图的每个选择的两个选择状态的情况之外,在同一帧对应于从图像模型图、音频模型图以及对象模型图的三个模型图的每个选择的三个选择状态的情况下,以相关的方式在初始剪贴簿中登记这三个选择状态。
现在,在下文中,在登记在初始剪贴簿中的选择状态的状态ID(登记状态ID)中,从图像模型图选择的选择状态(图像内容模型的状态)的状态ID还将适当地称为“图像登记状态ID”。
类似地,在下文中,在登记在初始剪贴簿中的登记的登记状态ID中,从音频模型图选择的选择的状态(音频内容模型的状态)的状态ID还将适当地称为“音频登记状态ID”,并且在下文中,从对象模型图选择的选择状态(对象内容模型的状态)的状态ID还将适当地称为“对象登记状态ID”。
[登记剪贴簿生成单元373的配置示例]
图50是示出图47中的登记剪贴簿生成单元373的配置示例的框图。注意,对于图50中的登记剪贴簿生成单元373,用相同的附图标记表示具有与图26中的登记剪贴簿生成单元103中的配置相同功能的配置,并且将适当地省略其描述。
在图50中,图像模型选择单元501、图像特征量提取单元502、图像最大似然状态序列估计单元503以及帧登记单元505与图26中的模型选择单元143至最大似然状态序列估计单元145以及帧登记单元147相同,所以将省略其描述。
另外,除了要处理的对象是音频特征量之外,音频模型选择单元506、音频特征量提取单元507、音频最大似然状态序列估计单元508与图像模型选择单元501至图像最大似然状态序列估计单元503相同,所以将省略其描述。
另外,除了要处理的对象是对象特征量之外,对象模型选择单元509、对象特征量提取单元510、对象最大似然状态序列估计单元511与图像模型选择单元501至图像最大似然状态序列估计单元503相同,所以将省略其描述。
帧提取单元504基本上具有与图26中的帧提取单元146相同的功能,但是不同之处在于要处理的状态序列。具体地,帧提取单元504确定图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的各个状态ID是否与登记在来自剪贴簿选择单元141中的关注剪贴簿中的登记状态ID匹配。
另外,帧提取单元504提取其状态ID与登记在来自剪贴簿选择单元141的关注剪贴簿中的登记状态ID匹配的状态对应的帧,并且将其提供给帧登记单元505。
[通过登记剪贴簿生成单元373进行的登记剪贴簿生成处理]
图51是用于描述图50中的登记剪贴簿生成单元373执行的登记剪贴簿生成处理的流程图。
在步骤S331中,剪贴簿选择单元141在存储在初始剪贴簿存储单元372的初始剪贴簿之中,选择尚未被选择作为关注剪贴簿的初始剪贴簿之一作为关注剪贴簿。
随后,剪贴簿选择单元141将关注剪贴簿提供给帧提取单元504和帧登记单元505。另外,剪贴簿选择单元141将与关注剪贴簿相关的类别提供给内容选择单元142、图像模型选择单元501、音频模型选择单元506以及对象模型选择单元509。随后,处理从步骤S331进行到步骤S332。
在步骤S332中,内容选择单元142从存储在内容存储单元11中的内容之中,选择在属于来自剪贴簿选择单元141的类别的内容之中、尚未被选择作为关注内容的内容之一作为关注内容。
随后,内容选择单元142将关注内容提供给图像特征量提取单元502、音频特征量提取单元507、对象特征量提取单元510以及帧提取单元504,并且处理从步骤S332进行到步骤S333。
在步骤S333中,图像模型选择单元501从存储在图像模型存储单元202a中的图像内容模型之中,选择与来自剪贴簿选择单元141的类别相关的图像内容模型作为关注模型。
随后,图像模型选择单元501将关注模型提供给图像最大似然状态序列估计单元503,并且处理从步骤S333进行到步骤S334。
在步骤S334中,图像特征量提取单元502提取从内容选择单元142提供的关注内容的各个帧的图像特征量,并且将关注内容的各个帧的图像特征量(的时间序列)提供给图像最大似然状态序列估计单元503。
随后,处理从步骤S334进行到步骤S335。在步骤S335中,图像最大似然状态序列估计单元503估计图像最大似然状态序列,在来自图像模型选择单元501的关注模型中将观测到来自图像特征量提取单元502的关注内容的图像特征量(的时间序列)的似然最高的情况下,该图像最大似然状态序列引起状态转移。
随后,图像最大似然状态序列估计单元503将关于关注内容的关注模型的图像最大似然状态序列提供给帧提取单元504,并且处理从步骤S335进行到步骤S336。
在步骤S336中,音频模型选择单元506从存储在音频模型存储单元202b中的音频内容模型之中,选择与来自剪贴簿选择单元141的类别相关的音频内容模型作为关注模型。
随后,音频模型选择单元506将关注模型提供给音频最大似然状态序列估计单元508,并且处理从步骤S336进行到步骤S337。
在步骤S337中,音频特征量提取单元507提取从内容选择单元142提供的关注内容的各个帧的音频特征量,并且将关注内容的各个帧的音频特征量(的时间序列)提供给音频最大似然状态序列估计单元508。
随后,处理从步骤S337进行到步骤S338。在步骤S338中,音频最大似然状态序列估计单元508估计音频最大似然状态序列,在来自音频模型选择单元506的关注模型中将观测到来自音频特征量提取单元507的关注内容的音频特征量(的时间序列)的似然最高的情况下,该音频最大似然状态序列引起状态转移。
随后,音频最大似然状态序列估计单元508将关于关注内容的关注模型的音频最大似然状态序列提供给帧提取单元504,并且处理从步骤S338进行到步骤S339。
在步骤S339中,对象模型选择单元509从存储在对象模型存储单元202c中的对象内容模型之中,选择与来自剪贴簿选择单元141的类别相关的对象内容模型作为关注模型。
随后,对象模型选择单元509将关注模型提供给对象最大似然状态序列估计单元511,并且处理从步骤S339进行到步骤S340。
在步骤S340中,对象特征量提取单元510提取从内容选择单元142提供的关注内容的各个帧的对象特征量,并且将关注内容的各个帧的对象特征量(的时间序列)提供给对象最大似然状态序列估计单元511。
随后,处理从步骤S340进行到步骤S341。在步骤S341中,对象最大似然状态序列估计单元511估计对象最大似然状态序列,在来自对象模型选择单元509的关注模型中将观测到来自对象特征量提取单元510的关注内容的对象特征量(的时间序列)的似然最高的情况下,该对象最大似然状态序列引起状态转移。
随后,对象最大似然状态序列估计单元511将关于关注内容的关注模型的对象最大似然状态序列提供给帧提取单元504,并且处理从步骤S341进行到步骤S342。
在步骤S342中,帧提取单元504将用于对时间点(关注内容的帧的数目)进行计数的变量t设置为作为初始值的1,并且处理进行到步骤S343。
在步骤S343中,帧提取单元504确定图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的时间点t处的状态(从前端起的第t状态)的状态ID是否与登记在来自剪贴簿选择单元141的关注剪贴簿中的选择状态中的登记状态ID之一匹配。
在步骤S343中确定关于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的时间点t处的状态的状态ID与关注剪贴簿中的登记状态ID之一匹配的情况下,处理进行到步骤S344。
在步骤S344中,帧提取单元504从来自内容选择单元142的关注内容提取时间点t处的帧,将其提供给帧登记单元505,并且处理进行到步骤S345。
另外,在步骤S343中确定关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的时间点t处的状态的状态ID不与关注剪贴簿中的登记状态ID的任何一个匹配的情况下,处理进行到步骤S345。也就是说,跳过步骤S344。
在步骤S345中,帧提取单元504确定变量t是否等于关注内容的帧的总数NF
在步骤S345中确定变量t不等于关注内容的帧的总数NF的情况下,处理进行到步骤S346,其中,帧提取单元504将变量t增加一。随后,处理从步骤S346返回至步骤S343,并且此后重复同一处理。
另外,在步骤S345中确定变量t等于关注内容的帧的总数NF的情况下,处理进行到步骤S347。
在步骤S347中,帧登记单元505登记从帧提取单元504提供的帧,即从来自剪贴簿选择单元141的关注剪贴簿中的关注内容提取的所有帧。
随后,处理从步骤S347进行到步骤S348。在步骤S348中,内容选择单元142确定在存储在内容存储单元11中的、属于与关注剪贴簿相关的类别相同类别的内容之中,是否存在尚未被选择作为关注内容的内容。
在步骤S348中确定在存储在内容存储单元11中的、属于与关注剪贴簿相关的类别相同类别的内容之中存在尚未被选择作为关注内容的内容的情况下,处理返回至步骤S332。
另外,在步骤S348中确定在存储在内容存储单元11中的、属于与关注剪贴簿相关的类别相同类别的内容之中不存在尚未被选择作为关注内容的内容的情况下,处理进行到步骤S349。
在步骤S349中,帧登记单元505将关注剪贴簿输出到登记剪贴簿存储单元374作为登记剪贴簿,并且登记剪贴簿生成处理结束。
参照图52,将关于登记剪贴簿生成单元373执行的登记剪贴簿生成处理进行描述,并且具体地,关于在由图28中描述的登记剪贴簿生成单元103仅使用图像特征量的情况下的剪贴簿生成处理的不同进行描述。
具体地,在图28中的D中,“1”和“3”被登记作为关注剪贴簿的图像登记状态ID,并且从关注内容分别提取基于图像特征量的状态ID(将观测到关注内容的图像特征量的图像最大似然状态序列中的状态ID)为“1”和“3”的帧。
随后,如图28中的E所示出的,以保持其时间前后关系的形式(例如作为运动图像)登记从关注内容提取的帧。
另一方面,在使用除了图像特征量之外的特征量的情况下,即例如在使用图像特征量和音频特征量的情况下,如图52所示,“V1”、“V3”、“A5”以及“V2&A6”可以被登记作为关注剪贴簿的登记状态ID。
这里,在图52中,由字符“V”和在该字符之后的数字构成的、诸如“V1”等的字符串表示登记状态ID的图像登记状态ID,并且由字符“A”和在该字符之后的数字构成的、诸如“A5”等的字符串表示登记状态ID的音频登记状态ID。
另外,在图52中,“V2&A6”表示作为图像登记状态ID的“V2”和作为音频登记状态ID的“A6”是相关的。
如图52所示,在将“V1”、“V3”、“A5”以及“V2&A6”登记在关注剪贴簿中作为登记状态ID的情况下,对于帧提取单元504(图50),从关注内容提取基于图像特征量的状态ID与图像登记状态ID=“V1”匹配的帧、和基于图像特征量的状态ID与图像登记状态ID=“V3”匹配的帧,并且还提取基于音频特征量的状态ID与音频登记状态ID=“A5”匹配的帧。
另外,对于帧提取单元504,从关注内容提取基于图像特征量的状态ID与图像登记状态ID=“V2”匹配并且基于音频特征量的状态ID还与音频登记状态ID=“A6”匹配的帧。
因此,在考虑多个特征量的情况下选择帧,并且因此,与仅使用图像特征量的情况相比,可以获得以其它高精度收集用户感兴趣的帧的剪贴簿。
注意,在图52中,示出了使用图像特征量和音频特征量的示例,但是显然还可以使用对象特征量。
另外,以上关于使用图像特征量、音频特征量以及对象特征量的示例进行了描述,但是还可以使用多个不同的特征量的组合,或者可以单独地使用它们。另外,可以进行如下布置:其中,根据对象的类型来设置对象特征量,并且以不同方式使用它们,例如,用作对象的人的整体图像、身体的上半部、面部图像等中的每个可以被用作单个对象特征量。
<用于缩略图显示的信息处理设备>
顺便提及,根据内容模型,可以使内容的各个帧聚类。
在下文中,将关于用于缩略图显示的信息处理设备进行描述,该信息处理设备通过使用使内容的各个帧聚类的聚类结果来显示缩略图,有助于内容中的快速识别等。
[应用本发明的显示控制设备的显示系统的实施例]
图53是示出用作应用本发明的用于缩略图显示的信息处理设备的显示系统的实施例的配置示例的框图。
在图53中,显示系统包括内容存储设备601、显示控制设备602以及显示设备603。
注意,内容存储设备601相当于例如记录器、因特网上的站点(服务器)、PC(个人计算机)的内置或外置的HD等,并且显示设备603相当于例如TV(电视机接收器)等。
另外,显示控制设备602可以单独包括内容存储设备601和显示设备603的每个,或者可以被构建成相当于内容存储设备601的记录器等、或相当于显示设备603的TV等。
内容存储设备601以与图1中的内容存储单元11相同的方式存储运动图像内容。另外,内容存储设备601读出存储的内容,并且将其提供给显示控制设备602。
显示控制设备602控制在显示设备603处的图像的显示。
具体地,显示控制设备602包括聚类单元611、场景分类单元612、缩略图创建单元613、显示控制单元614、操作单元615以及控制单元616。
将要播放的内容(在下文中,还称为“回放对象内容”)从内容存储设备601提供给聚类单元611。
聚类单元611使来自内容存储设备601的回放对象内容的各个帧聚类成预定多个聚类中的一个聚类,并且将表示聚类结果的聚类信息提供(输出)到场景分类单元612。
这里,聚类信息至少包括用于确定回放对象内容的各个帧所属的聚类的聚类信息(例如,加到聚类的唯一编号等)。
关于在聚类单元611处进行聚类的多个聚类的每个,场景分类单元612将属于该聚类的帧分类成作为在时间上连续的一个或多个帧的帧组的场景。
具体地,场景分类单元612依次选择在聚类单元611处进行聚类的多个聚类的每个作为关注聚类,并且基于来自聚类单元611的聚类信息识别属于关注聚类的回放对象内容的帧。
另外,场景分类单元612将属于关注聚类的帧分类成利用按时间序列排列时在时间上连续的一个或多个帧的帧组作为一个场景的场景(切割(cut)或突变(shot))。
因此,例如,在从回放对象内容的前端的第t1帧t1继续的n1个帧、和从回放对象内容的前端的第t2(>t1+n1)帧t2继续的n2个帧属于关注聚类的情况下,对于场景分类单元612,属于关注聚类的n1+n2个帧被分类成包括从回放对象内容的帧t1继续的n1个帧的场景、以及包括从回放对象内容的帧t2继续的n2个帧的场景。
随后,场景分类单元612取从属于关注聚类的帧获得的场景作为属于关注聚类的场景,并且将表示该场景的场景信息提供给缩略图创建单元613。
这里,场景信息至少包括用于确定在场景中包括的帧的帧信息(例如,表示从回放对象内容的前端的哪个编号帧的编号)、以及表示场景(因而,在场景中包括的帧)所属的聚类的聚类信息。
将回放对象内容的各个场景的场景信息从场景分类单元612提供给缩略图创建单元613,并且还将回放对象内容从内容存储设备601提供给缩略图创建单元613。
缩略图创建单元613创建回放对象内容的各个场景的缩略图。
具体地,缩略图创建单元613基于来自场景分类单元612的场景信息识别回放对象内容的所有场景,并且依次选择作为关注场景。
另外,缩略图创建单元613基于来自场景分类单元612的场景信息识别在关注场景中包括的帧,并且使用包括在来自内容存储设备601的关注场景中的帧来创建表示关注场景(的内容)的缩略图。
随后,缩略图创建单元613将关注场景的缩略图连同关注场景的场景信息提供给显示控制单元614。
这里,关于关注场景的缩略图,例如,可以使用包括在关注场景中的帧中的、通过诸如大小减小的头帧等的一个帧获得的图像。
另外,关于关注场景的缩略图,例如,可以使用包括在关注场景中的帧中的、用于显示通过经动画(运动图像)减小多个帧而获得的图像的、诸如动画GIF等的图像。
将回放对象内容的场景的缩略图和场景信息从缩略图创建单元613提供给显示控制单元614,并且还将回放对象内容从内容存储设备601提供给显示控制单元614。
显示控制单元614基于来自缩略图创建单元613的场景信息来执行显示控制,用于在显示设备603上显示来自缩略图创建单元613的场景的缩略图。
另外,显示控制单元614执行显示控制,用于在显示设备603上显示从内容存储设备601提供的回放对象内容的各个帧(的图像)。
在输入回放对象内容的指定、诸如显示在显示设备603上的缩略图等的指定时操作操作单元615,并且将对应于该操作的操作信号提供给控制单元616。
控制单元616根据来自操作单元615的操作信号,来控制聚类单元611、场景分类单元612、缩略图回放单元613以及显示控制单元614的必要块(necessary block)。
另外,控制单元616执行用于播放来自内容存储设备601的回放对象内容(的帧)的回放控制等。
注意,控制单元616将必要数据(信号)提供给内容存储设备601、聚类单元611、场景分类单元612、缩略图回放单元613以及显示控制单元614。然而,省略了对于提供必要数据的控制单元616的连接线的绘制,用于防止绘制变得复杂。
显示设备603根据来自显示控制单元614的显示控制,来显示缩略图或回放对象内容(的帧)。
[缩略图显示控制的处理]
图54是用于描述图53的显示控制设备602的缩略图显示控制的处理的流程图,显示控制设备602在显示设备603上显示内容的缩略图。
在步骤S601中,控制单元616等待通过用户操作操作单元615而执行的(给出的)、用于从存储在内容存储设备601中的内容指定回放对象内容的指定输入,并且基于该指定输入,选择通过该指定输入指定的内容作为回放对象内容。
随后,控制单元616从内容存储设备601使之读出回放对象内容,并且将回放对象内容提供给聚类单元611和缩略图创建单元613,并且处理从步骤S601进行到步骤S602。
在步骤S602中,聚类单元611使来自内容存储设备601的回放对象内容的各个帧聚类,并且将表示该聚类结果的聚类信息提供给场景分类单元612,并且处理进行到步骤S603。
在步骤S603中,基于来自聚类单元611的聚类信息,场景分类单元612关于各个聚类,将属于该聚类的帧分类成作为在时间上连续的一个或多个帧的帧组的场景。
随后,场景分类单元612将表示属于各个聚类的各个场景的场景信息提供给缩略图创建单元613,并且处理从步骤S603进行到步骤S604。
在步骤S604中,缩略图创建单元613基于来自场景分类单元612的场景信息识别回放对象内容的所有场景,并且关于各个场景,使用来自内容存储设备601的回放对象内容来创建该场景的缩略图。
随后,缩略图创建单元613将各个场景的缩略图连同该场景的场景信息提供给显示控制单元614,并且处理从步骤S604进行到步骤S605。
在步骤S605中,基于来自缩略图创建单元613的场景信息,显示控制单元614执行显示控制,用于在显示设备603上显示来自缩略图创建单元613的场景的缩略图。
如上所述,对于显示控制设备602,聚类单元611使回放对象内容的各个帧聚类,并且场景分类单元612关于各个聚类,将属于该聚类的帧分类成作为在时间上连续的一个或多个帧的帧组的场景。
因此,根据显示控制设备602,回放对象内容可以被容易地分类成用于对应于各个聚类的各个内容(特征量)的场景。
也就是说,即使使用何种方法作为用于对帧进行聚类的聚类方法,也使帧的类似内容(特征量)聚类成各个聚类。
因此,当注意某一聚类时,属于该聚类的帧被简单地分类成在时间上连续的一个或多个帧的帧组,由此能够容易地配置对应于该聚类的内容的场景。
注意,可以知道或者可以不知道对应于聚类的内容是何种内容。
然而,为了将对应于聚类的内容设置为已知内容,即为了预先知道使具有已知内容的帧(诸如包括许多人的帧、一个人靠近的帧等)聚类,需要将聚类(另外,被用于聚类的各个帧的特征量)设计成使具有这样的已知内容的帧聚类。
然而,如此将聚类设计成使具有特定已知内容的帧聚类是麻烦的,并且在某些情况下是困难的。
另一方面,易于设计具有未知内容的聚类,即,未知要进行聚类的帧具有何种内容的聚类。另外,即使对应于聚类的内容是未知的,通过用户观看要显示在显示设备603上的场景的缩略图,可以理解属于各个聚类的场景(帧)是哪种内容,这不是关注的原因。
[聚类单元611的配置示例]
图55是示出图53中的聚类单元611的配置示例的框图。
在图55中,聚类单元611包括聚类模型学习单元621、聚类模型存储单元622、聚类模型选择单元623、特征量提取单元624以及聚类确定单元625。
聚类模型学习单元621执行作为要用于对内容的各个帧进行聚类的模型的聚类模型的学习,并且将其提供给聚类模型存储单元622。
注意,关于聚类模型,例如,可以使用包括状态和状态转移的状态转移模型。
关于用作聚类模型的状态转移模型,例如,可以使用用作上述内容模型的HMM、或稍后描述的使用被用于矢量量化的k均值方法的模型(在下文中,还称为“新矢量量化模型”)、或者同样稍后描述的使用GMM(高斯混合模型)的模型(在下文中,还称为“新GMM”)等。
聚类模型学习单元621取存储在内容存储设备601中的内容作为用于学习的内容来学习聚类模型,并且关于各个类别将该用于学习的内容进行分类。
随后,关于各个类别,聚类模型学习单元621使用该类别的用于学习的内容来执行该类别的聚类模型的学习,以生成(获得)基于类别的聚类模型。
具体地,关于聚类模型,例如,在使用以上HMM用作内容模型的情况下,聚类模型学习单元621以与图2中的内容模型学习单元12相同的方式执行用作聚类模型的内容模型的学习。
注意,在下文中,为了简化描述,以与图1至图34的情况相同的方式,在内容的数据中,将仅使用图像数据,用于聚类模型学习处理和使用聚类模型的处理。
然而,对于聚类模型学习处理和使用聚类模型的处理,如在图35至图52中所描述的,除了图像之外,还可以使用诸如音频等的数据(特征量)。
聚类模型存储单元622存储要在聚类模型学习单元621等处生成的基于类别的聚类模型。
这里,例如,可以在因特网上的站点等处执行聚类模型的学习,并且聚类模型存储单元622可以从该站点下载(获得)并存储聚类模型。
在这种情况下,可以在不提供聚类模型学习单元621的情况下配置聚类单元611。
聚类模型选择单元623从存储在聚类模型存储单元622中的基于类别的聚类模型之中,选择与从内容存储设备601提供的回放对象内容的类别匹配的类别的聚类模型作为用于聚类的关注模型,并且将其提供给聚类确定单元625。
将回放对象内容从内容存储设备601提供给特征量提取单元624。
特征量提取单元624提取来自内容存储设备601的回放对象内容的各个帧的特征量,并且将其提供给聚类确定单元625。
这里,使用从用于学习的内容提取的特征量来执行聚类模型的学习。
对于特征量提取单元624,从回放对象内容提取与用于聚类模型的学习相同的特征量。
因此,如果关于聚类模型,例如使用用作内容模型的以上HMM,并且对于聚类模型学习单元621,以与图2中的内容模型学习单元12相同的方式执行用作聚类模型的内容模型的学习,则特征量提取单元624以与图2中的特征量提取单元22相同的方式,提取回放对象内容的各个帧的特征量。
聚类确定单元625使用从聚类模型选择单元623提供的聚类模型、以及从特征量提取单元624提供的特征量来确定回放对象内容的各个帧所属的聚类,并且将表示作为该聚类的聚类结果的聚类信息提供(输出)到场景分类单元612。
如果关于聚类模型,例如使用用作内容模型的以上HMM,则聚类确定单元625以与图9中的最大似然状态序列估计单元34相同的方式,例如,依据维特比算法,估计最大似然状态序列,该最大似然状态序列是在来自聚类模型选择单元623的关注模型中将观测到来自特征量提取单元624的回放对象内容的特征量(回放对象内容的各个帧的特征量的时间序列)的似然最高的情况下,引起状态转移的状态序列。
现在,假设对于关注模型,利用观测到回放对象内容的特征量的情况下的最大似然状态序列(在下文中,还称为关于回放对象内容的关注模型的最大似然状态序列)的前端作为基准的时间点t处的状态(从构成最大似然状态序列的前端起的第t状态)被表示为s(t),并且回放对象内容的帧数还被表示为T。
在这种情况下,关于回放对象内容的关注模型的最大似然状态序列是T个状态s(1)、s(2)、...、s(T)的序列,其中第t状态(时间点t处的状态)s(t)对应于回放对象内容的时间点t处的帧(帧t)。
此外,如果假设关注模型的状态的总数被表示为N,则时间点t处的状态s(t)是N个状态s1、s2、...、sN之一。
另外,N个状态s1、s2、...、sN之一附有作为用于确定状态的索引的状态ID。
现在,如果假设关于回放对象内容的关注模型的最大似然状态序列的时间点t处的状态s(t)是N个状态s1、s2、...、sN的第i状态si,则时间点t处的帧对应于状态si
关于回放对象内容的关注模型的最大似然状态序列的实体是N个状态s1、s2、...、sN的任何状态的状态ID序列,其对应于回放对象内容的各个时间点t处的帧。
如上所述的关于回放对象内容的关注模型的最大似然状态序列表示回放对象内容在关注模型上引起哪种状态转移。
此外,对于关于回放对象内容的关注模型的最大似然状态序列,如上所述,如果假设时间点t处的状态s(t)是N个状态s1、s2、...、sN的第i状态si,则时间点t处的帧对应于状态si
因此,通过将关注模型的N个状态的每个作为聚类,使时间点t处的帧聚类成对应于关注模型的N个状态中的、在最大似然状态序列中的时间点t处的状态s(t)的第i状态si的聚类,所以可认为对于关于回放对象内容的关注模型的最大似然状态序列的估计,确定回放对象内容的各个帧所属的聚类。
在估计关于回放对象内容的关注模型的最大似然状态序列之后,聚类确定单元625输出该最大似然状态序列作为聚类信息。
[缩略图和其它的显示控制]
将关于通过图53中的显示控制单元614进行的缩略图和回放对象内容的显示控制进行描述。
关于用于通过显示控制单元614进行的显示缩略图和回放对象内容的方法,例如,存在二维图显示、状态显示、2窗格显示、5窗格显示、时间序列显示以及平铺显示的六种显示方法。
在下文中,将关于二维图显示、状态显示、2窗格显示、5窗格显示、时间序列显示以及平铺显示的这六种显示的显示控制进行描述。
注意,关于二维图显示、状态显示、2窗格显示、5窗格显示、时间序列显示以及平铺显示的这六种显示的显示控制,一种显示的显示控制可以被实施成显示系统,或包括全部的多种显示的显示控制可以被实施成显示系统。
在二维图显示、状态显示、2窗格显示、5窗格显示、时间序列显示以及平铺显示的六种显示的情况下,包括全部的多种显示的显示控制可以被实施成显示系统,可以例如通过用户操作操作单元615(图53)选择是否执行哪个显示控制。
另外,例如通过用户操作操作单元615,可以在回放对象内容的回放期间切换是否执行哪个显示控制。
[二维图显示]
图56是示出二维图显示的显示示例的图。
对于二维图显示,显示控制单元614利用用于对回放对象内容进行聚类的聚类模型(即,作为关注模型的状态转移模型)来生成模型图,其是状态被布置为减小可相互执行状态转移的状态之间的距离的二维图,在该模型图的各个状态的位置中布置属于对应于该状态的聚类的场景(包括帧)的缩略图,并且将其显示在显示设备603上。
也就是说,显示控制单元614通过将关注模型的N个状态s1到sN布置在二维图(平面)上以减小可相互执行状态转移的状态之间的距离,生成模型图。
注意,控制单元616获得来自聚类单元611的关注模型,并且将其提供给显示控制单元614。
另外,显示控制单元614根据其状态之间的状态转移概率,绘制在模型图上的状态之间进行连接的线段。
具体地,在从某一状态si的状态转移中,显示控制单元614在模型图上例如绘制对状态转移概率最大的状态转移的转移源的状态si的状态与转移目标的状态之间进行连接的线段。
可替选地,在从某一状态si的状态转移中,显示控制单元614在模型图上例如绘制对状态转移概率等于或大于预定阈值的状态转移的转移源si的状态与转移目标的状态之间进行连接的线段。
这里,在图56中,线段的边缘点表示状态,并且线段表示状态转移。
显示控制单元614识别来自从缩略图创建单元613提供的场景信息的回放对象内容的各个场景所属的聚类,并且将属于对应于该状态si的聚类的(聚类的)场景的缩略图布置在模型图的N个状态si到sN的每个的位置中。
这里,在图56中,小矩形表示缩略图。在图56中,存在没有布置缩略图的状态。这表示对于回放对象内容不存在聚类成对应于该状态的聚类的帧。
此外,存在多个场景属于对应于某一状态si的聚类的情况。在这种情况下,属于对应于状态si的聚类的多个场景的每个的缩略图可以被排列并显示在模型图的状态si的位置中。
然而,在一个状态si的位置中显示多个场景的每个的缩略图时,多个场景的缩略图(的部分)与显示在另一状态sj的位置中的缩略图重叠,所以可能不容易观看缩略图。
此外,为了防止显示在一个状态si的位置中的多个场景的每个的缩略图和显示在另一状态sj的位置中的缩略图重叠,存在用于减小缩略图大小的方法,但是减小缩略图的大小还会阻止容易地观看缩略图。
因此,在多个场景属于对应于某一状态si的聚类的情况下,在模型图的状态si的位置中,在属于对应于状态si的聚类的多个场景的每个的缩略图中,例如,仅可以显示在回放对象内容中的在时间序列顺序上最早(回放顺序最早)的一个场景的缩略图。
注意,在多个场景属于对应于某一状态si的聚类的情况下,可以根据例如由用户对操作单元615(图53)进行的操作来切换要显示在模型图的状态si的位置中的、属于对应于某一状态si的聚类的一个场景的缩略图。
具体地,例如,在按时间序列顺序三个场景c1、c2和c3属于对应于状态si的聚类的情况下,每次操作操作单元615来切换缩略图,可以循环地切换要显示在模型图的状态si的位置中缩略图,诸如场景c1的缩略图、场景c2的缩略图、场景c3的缩略图、场景c1的缩略图等。
如上所述,对于二维图显示,在用于对回放对象内容进行聚类的聚类模型(关注模型)中,状态被布置为减小可相互执行状态转移的状态之间的距离,并且此外,在绘制状态转移的模型图的各个状态的位置中,布置和显示属于对应于该状态的聚类的场景的缩略图。
因此,根据二维图显示,如在图9和其它图中所描述的,用户通过利用布置在各个状态的位置中的场景的缩略图、和表示状态之间的状态转移的线段来识别回放对象内容的结构,可容易地一眼就识别出回放对象内容的概要。
这里,对于模型图,关注模型的N个状态si到sN被布置为减小可相互执行状态转移的状态之间的距离,以与图9中的内容结构呈现单元14相同的方式执行这样的状态布局。
具体地,显示控制单元614基于从一个状态si到另一状态sj的状态转移的状态转移概率aij来获得从关注模型的一个状态si到另一状态sj的状态间距离dij *,并且获得作为模型图上的状态si的位置坐标的状态坐标Yi,以减小从一个状态si到另一状态sj的欧几里德距离dij与模型图上的状态间距离dij *之间的误差,并且具体地,例如使表达式(1)中的Sammon映射误差函数E最小化。
随后,显示控制单元614将相应状态si布置在状态坐标Yi的位置中。
注意,如上所述,在按原样采用表达式(1)中的误差函数E、并且获得模型图上的状态坐标Yi以便使得误差函数E最小化的情况下,如图11所示,在模型图上以圆形图案布置状态,并且将状态集中在圆周的附近(外部),这阻止了用户观看状态的布置,并且因此可降低可视性。
因此,还对于显示控制单元614,如在图12所示,可以获得模型图上的状态坐标Yi,以便校正表达式(1)中的误差函数E,以使校正后的误差函数E最小化。
具体地,对于显示控制单元614,在从一个状态si到另一状态sj的欧几里德距离dij不大于预定阈值THd(例如,THd=1.0等)的情况下,对于表达式(1)中的误差函数的计算,欧几里德距离dij按原样被用作欧几里德距离dij,并且在欧几里德距离dij大于预定阈值THd的情况下,对于表达式(1)中的误差函数的计算,状态间距离dij *被用作欧几里德距离dij(设置为dij=dij *)(欧几里德距离dij被设置为等于状态间距离dij *的距离)。
如上所述,获得模型上的状态坐标Yi以便使得校正后的误差函数E最小化,并且因此,将欧几里德距离dij保持为两个稍远的状态si与sj之间远离,所以可通过使状态在模型图的圆周的附近集中而防止可视性降低。也就是说,如图12所示,可以显示具有充分可视性的模型图。
图57是示出二维图显示的另一显示示例的图。
如上所述,关于二维图显示,对于用于对回放对象内容进行聚类的聚类模型,即关注模型,在状态被布置为减小可相互执行状态转移的状态之间的距离的模型图的各个状态的位置中,布置属于对应于该状态的聚类的场景(包括帧)的缩略图。
因此,例如,在使回放对象内容的帧聚类成多个聚类的情况下,要显示的缩略图的数目增加。随后,为了显示这样的大数目的缩略图而不相互重叠,需要在一定程度上减小缩略图的大小。
然而,在缩略图的大小较小的情况下,可阻止容易地观看缩略图。
因此,对于二维图显示,显示控制单元614可以在显示设备603上放大并显示模型图的部分。
具体地,在用户操作操作单元615以便放大模型图的某一位置时,即在用户将光标移动到某一位置并且点击操作单元615时,如图57所示,显示控制单元614放大模型图的、包括光标位置的预定范围,并且将其显示在显示设备603上。
在这种情况下,用户可以明显地确认用作缩略图的图像。
注意,由操作单元615的预定操作来释放模型图的放大。
图58是示出二维图显示的又一显示示例的图。
如在图54中所描述的,对于显示控制设备602(图53),在用户操作操作单元615以提供用于指定回放对象内容的指定输入时,控制单元616选择通过该指定输入指定的内容作为回放对象内容,读出来自内容存储设备601的该回放对象内容,并且将其提供给聚类单元611和缩略图创建单元613。
以高速执行用于将回放对象内容提供给聚类单元611和缩略图创建单元613而从内容存储设备601读出回放对象内容,以及向聚类单元611和缩略图创建单元613提供回放对象内容,以快速地执行缩略图的显示。
如上所述,除了向聚类单元611和缩略图创建单元613高速提供回放对象内容之外,控制单元616还执行对回放对象内容的回放控制,用于将回放对象内容从内容存储设备601提供给用于实时显示的显示控制单元614。
随后,在控制单元616的回放控制之下,显示控制单元614例如从该头帧起,使显示设备603实时显示从内容存储设备601提供的回放对象内容的各个帧。
具体地,显示控制单元614以与图56和图57中的情况相同的方式显示模型图,其中在绘制了表示状态转移的线段的模型图的各个状态的位置中,布置属于对应于该状态的聚类的场景的缩略图,并且还对于回放对象内容,绘制了现在要在比缩略图大预定大小的窗口的回放窗口上播放的帧的回放对象帧,并且在模型图的对应于该播放对象帧的聚类的状态的位置中显示播放窗口。
因此,在播放对象帧所属的聚类改变时,即在场景改变时,如图58中的箭头所示,回放窗口的显示位置从对应于改变前的聚类的状态的位置移动到对应于改变后的聚类的状态的位置。
在这种情况下,用户可识别现在播放属于哪个聚类的帧(成为回放对象帧)。
如上所述,在绘制了回放对象帧的回放窗口连同模型图显示的情况下,对于模型图,可在对应于多个场景所属的聚类的状态的位置中,显示关于回放窗口的回放对象帧的按时间序列的最近场景的缩略图。
在这种情况下,对于属于各个聚类的场景,用户可确认在属于该聚类的场景中关于回放对象帧按时间序列最近场景的概要。
另外,用户可通过操作操作单元615来提供用于指定模型图上的状态的指定输入。
在这种情况下,控制单元616将属于对应于通过该指定输入指定的状态的聚类的帧改变成基于用于指定模型图上的状态的指定输入的回放对象帧,并且从该回放对象帧开始回放控制。
因此,在用户观看显示在模型图的状态的位置中的缩略图、并且提供用于指定该缩略图的指定输入时,在该缩略图表示的场景中,例如头帧成为回放对象帧,并且在通过指定输入指定的缩略图的位置中显示绘制了回放对象帧的回放窗口。
如上所述,用户在观看回放对像帧的同时简单地提供用于指定显示在状态的位置上的缩略图的指定输入,由此用户可以跳转到该缩略图表示的场景,即跳转到所谓的回放对象位置。
因此,状态(的位置上显示的缩略图)用作所谓的章(chapter),并且可以用于章的提示。
具体地,例如,记录在DVD中的商业内容(通常)设置有章,但是另一方面,个人拍摄的运动图像内容需要由用户手动地设置章。根据显示控制设备602,能以等效的方式将章自动添加到内容中。
此外,对于常规的记录器,可设置跳转按钮,例如在使回放位置从现在播放的位置(帧)跳转到诸如五秒、30秒等的预定时间之后(或之前)的位置时,操作该跳转按钮。
用户可通过重复操作跳转按钮以使回放位置跳转的操作,来识别内容的概要,随时观看要从跳转后的位置播放的图像,并且再次操作跳转按钮。
然而,对于跳转按钮的操作,在回放位置的跳转前和跳转后的场景中可不存在改变,并且在这种情况下,需要一再操作跳转按钮以识别内容的概要。
此外,对于跳转按钮的操作,在回放位置的跳转前的场景与跳转后的场景之间可以存在多个场景,并且在这种情况下,难以识别内容的概要。
另一方面,根据二维图显示,显示了模型图,其中,在绘制了表示状态转移的线段的模型图的各个状态的位置中,布置属于对应于改状态的聚类的场景的缩略图,并且另外,在模型图的对应于回放对象帧所属的聚类的状态的位置中,显示绘制了回放对象帧的回放窗口。
因此,通过观看布置在连接到显示回放窗口的位置的状态(即,对应于回放对象帧所属的聚类的状态)的状态的位置中的缩略图,用户可期望在具有回放对象帧的场景紧接之后或在具有回放对象帧的场景紧接之前的场景的概要,所以可更容易地识别回放对象内容的概要。
[状态显示]
图59是示出状态显示的显示示例的图。
对于状态显示,显示控制单元614(图53)布置属于矩形聚类区域中的相应聚类的场景(包括帧)的缩略图,并且将其显示在显示设备603上,该矩形聚类区域是通过依据用于对回放对象内容进行聚类的聚类模型(即,对应于作为关注模型的状态转移模型的状态的聚类)对显示设备603的显示屏分割而获得的。
具体地,显示控制单元614将显示设备603的显示屏分割成具有网格形状的、数目为关注模型的状态的总数N(或更多)的聚类区域,并且例如假定按光栅扫描顺序,左上方的第i聚类区域对应于在聚类单元611处聚类的第i聚类(状态si),并且将关注模型的N个状态s1到sN的、属于对应于第i状态的聚类的场景的缩略图布置在该第i聚类区域中。
这里,在图59中,用虚线包围的区域表示聚类区域。此外,聚类区域内的实线的矩形表示缩略图。
在图59中,存在没有布置缩略图的聚类区域,但是这表示对于回放对象内容,不存在被聚类成对应于该聚类区域的聚类的帧。
对于在图56至58中描述的二维图,进行如下布置:在模型图的状态si的位置中,仅显示属于对应于该状态si的聚类的一个场景的缩略图,但是对于状态显示,属于相应聚类的所有场景的缩略图可以显示在聚类区域中。
也就是说,对于状态显示,在仅一个场景属于对应于某一状态si的聚类的情况下,仅在第i聚类区域中显示该一个场景的缩略图。
此外,在多个场景属于对应于某一状态si的聚类的情况下,在第i聚类区域中排列并显示多个场景的每个的缩略图。
在图59中,数目为关注模型的状态的总数N(或更多)的聚类区域的每个是相同大小的区域,并且因此,要显示在聚类区域中的缩略图的数目越多,则要显示在相同大小的聚类中的缩略图的大小越小。
如上所述,对于状态显示,在一个聚类区域中排列并显示属于相同聚类的场景的缩略图,由此用户能以纵览属于相同聚类的场景(具有相同内容的场景)以及纵览属于各个聚类的场景的方式,来确认回放对象内容的所有场景,所以能容易地识别回放对象内容的概要。
图60是示出状态显示的另一显示示例的图。
如上所述,对于状态显示,在通过根据对应于关注模型的状态的聚类对显示屏分割而获得的矩形聚类区域中,排列和显示属于相应聚类的所有场景的缩略图。
因此,在属于对应于聚类区域的聚类的场景的数目大的情况下,在该聚类区域中排列和显示这样的大数目的场景的缩略图,所以需要减小缩略图的大小,结果,可以阻止容易地观看缩略图。
因此,还对于状态显示,以与二维图显示的情况相同的方式,显示控制单元614可以在显示设备603上放大和显示若干聚类区域。
具体地,在用户操作操作单元615以便放大聚类区域时,即,例如在用户将光标移动到某一区域的位置并且点击操作单元615时,如图60所示,显示控制单元614在显示设备603上放大和显示包括光标的位置中的聚类区域的预定范围。
在这种情况下,用户能明显地确认用作缩略图的图像。
注意,以与图57中描述的模型图的放大相同的方式,由操作单元615的预定操作释放如上所述的聚类区域的放大。
另外,还对于状态显示,以与二维图显示的情况相同的方式,可以显示绘制了回放对象帧的回放窗口(图58)。
具体地,可以进行如下布置:显示控制单元614显示布置了场景的缩略图的聚类区域,并且还显示在回放对象帧所属的聚类区域的位置中绘制了回放对象帧的回放窗口。
另外,还对于状态显示,以与二维图显示的情况相同的方式,用户可以通过操作操作单元615来提供用于指定聚类区域或显示在聚类区域中的缩略图的指定输入。
这里,例如,可以根据操作单元615的操作,切换指定输入是否指定聚类区域和显示在聚类区域中的缩略图的任何一个。
在指定输入指定聚类区域的情况下,基于用于指定聚类区域的指定输入,控制单元616将属于对应于通过该指定输入指定的聚类区域的聚类的帧改变成回放对象帧,并且从该回放对象帧开始回放控制。
具体地,在属于对应于通过指定输入指定的聚类区域的聚类的场景中,控制单元616将关于回放对象帧的按时间序列最近的场景的头帧设置为回放对象帧(执行回放控制)。随后,对于显示控制单元614,在通过指定输入指定的聚类区域的位置中,显示绘制了回放对象帧的回放窗口。
如上所述,通过在观看回放对象帧的同时、简单地提供用于指定聚类区域的指定输入,用户可以使回放位置跳转到由显示在该聚类区域中的缩略图表示的场景。
此外,在指定输入指定布置在聚类区域中的缩略图的情况下,基于用于指定缩略图的指定输入,控制单元616将包括在通过指定输入指定的缩略图表示的场景中的帧改变成回放对象帧,并且从该回放对象帧开始回放控制。
具体地,在通过指定输入指定的缩略图表示的场景中,例如,控制单元616将头帧设置为回放对象帧。随后,对于显示控制单元614,在通过指定输入指定的缩略图被布置的聚类区域的位置中,显示绘制了该回放对象帧的回放窗口。
如上所述,通过在观看回放对象帧的同时、简单地提供用于指定缩略图的指定输入,用户可以使回放位置跳转到该缩略图表示的场景。
[2窗格显示]
图61是示出2窗格显示的显示示例的图。
对于2窗格显示,显示控制单元614在显示设备603上显示绘制了回放对象内容(的回放对象帧)的回放窗口631、以及绘制了属于回放对象帧所属的聚类的场景(包括帧)的缩略图的聚类窗口632。
在图61中,在显示设备603的显示屏的上侧上约2/3的区域中显示回放窗口631,并且在回放窗口631的下侧上显示聚类窗口632。
此外,对于聚类窗口632,按时间序列顺序排列属于回放对象帧所属的聚类的所有场景(包括具有回放对象帧的场景)的缩略图,并且将其显示(绘制)在通过相等地划分聚类窗口632所获得的区域中。
缩略图被显示在聚类窗口632上的、属于回放对象帧所属的聚类的所有场景是具有相同内容的场景,并且因此,根据聚类窗口632,用户能够容易地识别与包括回放对象帧的场景相同的场景。
还对于2窗格显示,以与二维图显示的情况相同的方式,用户可以通过操作操作单元615提供用于指定显示在聚类窗口632上的缩略图的指定输入。
控制单元616将包括在通过该指定输入指定的缩略图表示的场景中的帧改变成回放对象帧,并且从该回放对象帧开始回放控制。
具体地,在通过指定输入指定的缩略图表示的场景中,例如,控制单元616将头帧设置为回放对象帧。随后,对于显示控制单元614,在回放窗口613上显示该回放对象帧,而不是到此时间已经成为回放对象帧的帧。
另外,显示控制单元614还将响应于回放对象帧的改变而改变聚类窗口632的显示。
缩略图被显示在聚类窗口632上的、属于回放对象帧所属的聚类的所有场景是具有相同内容的场景,所以根据2窗格显示,通过在观看回放对象帧的同时、简单地提供用于指定缩略图的指定输入,用户可以使回放位置跳转到其它与包括回放对象帧相同的场景。
[5窗格显示]
图62是示出5窗格显示的显示示例的图。
对于5窗格显示,以与图61中描述的2窗格显示相同的方式,显示控制单元614在显示设备603上显示绘制了回放对象内容的回放窗口641、以及绘制了属于回放对象帧所属的聚类的场景(包括帧)的缩略图的聚类窗口642。
另外,对于5窗格显示,显示控制单元614在显示设备603上显示聚类窗口643和644以及缩略图窗口645。
对于聚类窗口643,以与图61中的聚类窗口632相同的方式,例如按时间序列顺序排列和显示属于在包括回放对象帧的场景紧接之前的场景(的帧)所属的聚类的所有场景(包括帧)的缩略图。
缩略图被显示在聚类窗口643上的、属于在包括回放对象帧的场景紧接之前的场景所属的聚类的所有场景是具有相同内容的场景,并且因此,根据聚类窗口643,用户能容易地识别与在包括回放对象帧的场景紧接之前的场景相同的场景。
对于聚类窗口644,以与图61中的聚类窗口632相同的方式,例如,按时间序列顺序排列和显示属于在包括回放对象帧的场景紧接之后的场景(的帧)所属的聚类的所有场景(包括帧)的缩略图。
因此,根据聚类窗口644,用户能容易地识别与在包括回放对象帧的场景紧接之后的场景相同的场景。
对于缩略图窗口645,以与图61中的聚类窗口632相同的方式,例如,按时间序列顺序排列和显示回放对象内容的所有场景的缩略图。
因此,根据缩略图窗口645,能容易地识别回放对象内容的所有场景。
如上所述,根据5窗格显示,在通过缩略图窗口645确认全部的回放对象内容的同时,用户能够通过聚类窗口642识别与包括回放对象帧的场景(在下文中,还称为当前场景)相同的场景,并且此外还可以通过聚类窗口643和644识别与在当前场景紧接之前的场景和在当前场景紧接之后的场景相同的场景。
这里,在图62中,在显示设备603的显示屏的左上侧上约1/4的区域中显示回放窗口641,并且在回放窗口641的右侧上、在显示屏的右上侧上约1/4的区域中显示缩略图窗口645。
另外,在图62中,在通过在水平方向上将显示设备603的显示屏的下侧上约1/2的区域划分成三个而获得的(三个)区域中,分别在左侧的第一区域中显示聚类窗口644,在第二区域中显示聚类窗口642,并且在第三区域中显示聚类窗口643。
注意,对于5窗格显示,在要显示在缩略图窗口645上的缩略图中,可以对当前场景的缩略图进行强调显示(诸如用框架围绕等)。
另外,对于缩略图窗口645,在回放对象内容的所有场景的缩略图中,除了显示在聚类窗口642到644上的缩略图之外,仅可显示其余的缩略图。
此外,还对于5窗格显示,以与二维图显示等的情况相同的方式,用户能够通过操作操作单元615,提供用于指定显示在聚类窗口642至644、和缩略图窗口645上的缩略图的指定输入。
基于用于指定缩略图的指定输入,控制单元616将包括在通过指定输入指定的缩略图表示的场景中的帧改变成回放对象帧,并且从该回放对象帧开始回放控制。
具体地,在通过指定输入指定的缩略图表示的场景中,例如,控制单元616将头帧设置为回放对象帧。随后,对于显示控制单元614,在回放窗口641上显示该回放对象帧,而不是已成为回放对象帧的帧。
另外,显示控制单元614还响应于回放对象帧的改变而改变聚类窗口642至644的显示。
因此,根据5窗格显示,通过简单地提供用于指定缩略图的指定输入,用户可以使回放位置跳转到回放对象内容的任意场景。
[时间序列显示]
图63是示出时间序列显示的显示示例的图。
对于时间序列显示,显示控制单元614在显示设备603上显示绘制了回放对象内容的回放窗口651和缩略图图像组652。
在图63中,在显示设备603的显示屏的上侧上约3/4的区域中显示回放窗口651,并且在回放窗口651的下侧上、在显示屏的下侧上约1/4的区域中显示缩略图图像组652。
缩略图图像组652是如下的图像:按时间序列排列包括回放对象帧的场景(当前场景)的缩略图、在当前场景之后的一个或多个场景的缩略图、以及在当前场景之前的一个或多个场景的缩略图。
具体地,在图63中,在缩略图图像组652的中心布置当前场景的缩略图,并且利用从右到左的方向作为时间点前进方向,在当前场景的缩略图的右侧上,按时间序列布置在当前场景紧接之前的四个场景的缩略图。
另外,对于缩略图图像组652,在当前场景的缩略图的左侧上,按时间序列布置在当前场景紧接之后的四个场景的缩略图。
此外,对于图63中的缩略图图像组652,以附在圆柱体的侧面上的方式(诸如三维图像)显示缩略图。因此,在构成缩略图图像组652的缩略图中,以最大尺寸显示当前场景的缩略图,场景的缩略图按时间序列与当前场景分开越远,显示的缩略图越小。
如上所述,对于缩略图图像组652,按时间序列排列当前场景的缩略图、在当前场景之后的一个或多个场景的缩略图、以及在当前场景之前的一个或多个场景的缩略图,所以根据缩略图图像组652,用户能够容易地识别在时间上接近当前场景的场景。
还对于时间序列显示,以与二维图显示等的情况相同的方式,用户能够通过操作操作单元615,提供用于指定缩略图图像组652的缩略图的指定输入。
基于用于指定缩略图的指定输入,控制单元616将包括在通过指定输入指定的缩略图表示的场景中的帧改变成回放对象帧,并且从该回放对象帧开始回放控制。
具体地,在通过指定输入指定的缩略图表示的场景中,例如,控制单元616将头帧设置为回放对象帧。随后,对于显示控制单元614,在回放窗口651上显示该回放对象帧,而不是已成为回放对象帧的帧。
另外,显示控制单元614还响应于回放对象帧的改变而改变缩略图图像组652的显示。
因此,根据时间序列显示,通过简单地提供用于指定缩略图的指定输入,用户可以使回放位置跳转到回放对象内容的任意场景。
这里,对于缩略图图像组652,按时间序列排列在当前场景之后的一个或多个场景的缩略图、和在当前场景之前的一个或多个场景的缩略图,所以能使回放位置跳转到例如跟随当前场景(在当前场景紧接之后)的场景、在跟随当前场景之后的场景等。
因此,可以说缩略图图像组652的各个缩略图具有常规记录器的诸如以上跳转按钮的功能。
注意,对于通过跳转按钮的跳转,跳转后的帧(回放对象帧)并不限制于不同于当前场景的场景的帧,并且可以是当前场景的帧,所以可以不改变场景,但是通过缩略图图像组652的缩略图的跳转比利用跳转按钮的跳转更有效,在于对于通过缩略图图像组652的缩略图的跳转,跳转后的帧总是不同于当前场景的场景的帧。
[平铺显示]
图64是示出平铺显示的显示示例的图。
对于平铺显示,显示控制单元614以与图62中的5窗格显示的缩略图窗口645相同的方式,按时间序列排列回放对象内容的所有场景的缩略图,并且将其显示在显示设备603上。
因此,根据平铺显示,可以容易地识别回放对象内容的所有场景。
另外,还对于平铺显示,以与二维图显示相同的方式,可以显示绘制了回放对象帧的回放窗口。
具体地,可以进行如下布置:显示控制单元614显示回放对象内容的所有场景的缩略图,并且还显示在该回放对象帧的场景(当前场景)的缩略图的位置中绘制了回放对象帧的回放窗口。
另外,还对于平铺显示,以与二维图显示的情况相同的方式,用户可以通过操作操作单元615提供用于指定缩略图的指定输入。
基于用于指定缩略图的指定输入,控制单元616将包括在通过指定输入指定的缩略图表示的场景中的帧改变成回放对象帧,并且从该回放对象帧开始回放控制。
具体地,在通过指定输入指定的缩略图表示的场景中,例如,控制单元616将头帧设置为回放对象帧。随后,对于显示控制单元614,在通过指定输入指定的缩略图的位置中显示绘制了该回放对象帧的回放窗口。
如上所述,通过在观看回放对象帧的同时、简单地提供用于指定缩略图的指定输入,用户可以使回放位置跳转到该缩略图表示的场景。
[在聚类模型是HMM的情况下的聚类模型的学习]
图65是用于描述在聚类模型是HMM的情况下、聚类模型学习单元621(图55)执行的聚类模型学习处理的流程图。
这里,如图55所述,关于聚类模型,例如,可以采用包括状态和状态转移的状态转移模型。另外,关于要采用作为聚类模型的状态转移模型,例如,可以采用用作内容模型的HMM、作为采用被用于矢量量化的k均值方法的模型的新矢量量化模型、作为采用GMM的模型的新GMM等。
图65是用于描述在以上HMM、新矢量量化模型以及新GMM模型中将HMM采用作为聚类模型的情况下的该聚类模型的学习处理的流程图。
在步骤S621中,聚类模型学习单元621(图55)取存储在内容存储单元601中的内容作为用于学习的内容来学习聚类模型,并且针对各个类别,将用于学习的内容进行分类。
随后,例如,聚类模型学习单元621以与图2中的内容模型学习单元12相同的方式,提取用于学习的内容的各个帧的特征量,并且处理从步骤S621进行到步骤S622。
在步骤S622中,关于各个类别,聚类模型学习单元621使用该类别的用于学习的内容的帧的特征量(的时间序列),以与图2中的内容模型学习单元12相同的方式来执行用作聚类模型的HMM的学习,由此生成(获得)用作用于各个类别的聚类模型的HMM。
随后,聚类模型学习单元621将用作用于各个类别的聚类模型的HMM提供并存储到聚类模型存储单元622,并且聚类模型学习处理结束。
这里,在聚类模型是HMM的情况下,HMM的状态对应于聚类。
[在聚类模型是HMM的情况下的聚类]
图66是用于描述在聚类模型是HMM的情况下的、聚类单元611(图55)执行的回放对象内容的聚类处理的流程图。
在步骤S631中,聚类模型选择单元623(图55)从存储在聚类模型存储单元622中的、用于各个类别的聚类模型之中,选择其类别与回放对象内容的类别匹配的聚类模型作为用于聚类的关注模型,将其提供给聚类确定单元625,并且处理进行到步骤S632。
在步骤S632中,特征量提取单元624(图55)提取来自内容存储设备601的回放对象内容的各个帧的特征量(用于用作内容模型的HMM的学习的相同的特征量),将其提供给聚类确定单元625,并且处理进行到步骤S633。
在步骤S633和随后的步骤S634中,聚类确定单元625(图55)使用来自聚类模型选择单元623的关注模型和来自特征量提取单元624的回放对象内容的各个帧(的时间序列)的特征量,以确定回放对象内容的各个帧所属的聚类,并且将表示作为该聚类的聚类结果的聚类信息提供(输出)到场景分类单元612。
具体地,在步骤S633中,以与图9中的最大似然状态序列估计单元34相同的方式,聚类确定单元623估计最大似然状态序列(关于回放对象内容的关注模型的最大似然状态序列),该最大似然状态序列是在来自聚类模型选择单元623的关注模型中将观测到来自特征量提取单元624的回放对象内容的特征量(回放对象内容的各个帧的特征量的时间序列)似然最高的情况下,引起状态转移估计的状态序列,并且处理进行到步骤S634。
在步骤S634中,聚类确定单元625将关于回放对象内容的关注模型的最大似然状态序列输出到场景分类单元612(图53)作为聚类信息,并且回放对象内容的聚类处理结束。
图67示出了表示在采用HMM用为聚类模型的情况下聚类的图形模型。
图67中的图形模型表示在关于回放对象内容的关注模型的最大似然状态序列s(1)、s(2)、...、s(T)的时间点t处的状态s(t)(T表示回放对象内容的帧的数目)中观测回放对象内容的时间点t处的帧的特征量xt
关于回放对象内容的关注模型的最大似然状态序列s(1)到s(T)表示回放对象内容的时间点t处的帧被聚类成了对应于状态s(t)的聚类。
[在聚类模型是新矢量量化模型的情况下的聚类模型的学习]
图68是用于描述在聚类模型是新矢量量化模型的情况下、聚类模型学习单元621(图55)执行的聚类模型学习处理的流程图。
在步骤S641中,聚类模型学习单元621(图55)取存储在内容存储单元601中的内容作为用于学习的内容来学习聚类模型,并且针对各个类别将用于学习的内容进行分类。
随后,聚类模型学习单元621例如以与图2中的内容模型学习单元12相同的方式,提取用于学习的内容的各个帧的特征量(矢量),并且处理从步骤S641进行到步骤S642。
在步骤S642中,关于各个类别,聚类模型学习单元621使用该类别的用于学习的内容的各个帧的特征量,来例如通过k均值方法获得用于帧的特征量(矢量)的矢量量化的代码本,并且处理进行到步骤S643。
具体地,聚类模型学习单元621通过k均值方法获得作为帧的特征量的空间(特征量空间)的矢量的代码矢量,并且以与呈现(识别)该代码矢量的代码相关的方式登记在代码本上。
注意,在聚类模型是新矢量量化模型的情况下,代码矢量(表示的代码)对应于作为状态转移模型的新矢量量化模型的状态,并因此对应于聚类。
现在,假设代码本的代码矢量的总数是N,并且在N个代码矢量中,第n个代码矢量被表示为μn,并且表示该代码矢量μn的代码被表示为n。
在步骤S643中,关于各个类别,聚类模型学习单元621使用该类别的代码本,通过矢量量化对该类别的用于学习的内容的各个帧的特征量进行聚类,输出用作聚类结果的代码的序列(代码序列),并且处理进行到步骤S644。
具体地,如果假设用于学习的内容的时间点t处的帧的特征量(矢量)被表示为xt,则聚类模型学习单元621通过使特征量(矢量)xt进行矢量量化而执行聚类,以便获得代码n以使得用表达式s(t)=argmin|xtn|表示的代码s(t)(即特征量(矢量)xt)与代码矢量μn之间的距离|xtn|最小化。
关于各个类别,聚类模型学习单元621通过使用该类别的代码本的矢量量化对该类别的用于学习的内容的各个帧的特征量进行聚类,输出用作聚类结果的代码序列s(1)、s(2)、...、s(T)(T表示回放对象内容的帧的数目)。
在步骤S644中,关于各个类别,基于该类别的代码序列s(1)至s(T),聚类模型学习单元621获得对应于代码(由代码表示的代码矢量)的状态的状态转移概率(在下文中,还称为“代码转移概率”),并且处理进行到步骤S645。
具体地,聚类模型学习单元621获得代码转移概率Aij=P(j=s(t+1)|i=s(t)),其是将进行从对应于某一时间点t处的代码s(t)的状态i到对应于下一时间点t+1处的代码s(t+1)的状态j的状态转移的状态转移概率。
注意,对于代码序列s(1)至s(T),如果假设从对应于时间点t处的代码s(t)的状态i到对应于下一时间点t+1处的代码s(t+1)的状态j的状态转移的次数被表示为mi,j,则用表达式P(s(t+1)|s(t))=ms(t),s(t+1)/∑ms(t),n表示将进行从对应于时间点t处的代码s(t)的状态i到对应于下一时间点t+1处的代码s(t+1)的状态j的状态转移的状态转移概率P(s(t+1)|(s(t))。
这里,对于表达式P(s(t+1)|s(t))=ms(t),s(t+1)/∑ms(t),n,右边的分母的∑表示通过将n变成从1到N的整数而获得的和。
在步骤S645中,聚类模型学习单元621将关于各个类别获得的代码本和代码转移概率Aij的集提供并存储到聚类模型存储单元622作为新矢量量化模型,其是包括对应于代码的状态和用代码转移概率Aij作为状态转移概率的状态转移的状态转移模型,并且聚类模型学习处理结束。
[在聚类模型是新矢量量化模型的情况下的聚类]
图69是用于描述在聚类模型是新矢量量化模型的情况下、聚类单元611(图55)执行的回放对象内容的聚类处理的流程图。
在步骤S651中,聚类模型选择单元623(图55)从存储在聚类模型存储单元622中的用于各个类别的聚类模型之中,选择其类别与回放对象内容的类别匹配的聚类模型作为用于聚类的关注模型,将其提供给聚类确定单元625,并且处理进行到步骤S652。
在步骤S652中,特征量提取单元624(图55)提取来自内容存储设备601的回放对象内容的各个帧的特征量(与用于用作内容模型的新矢量量化模型的学习的特征量相同的特征量),将其提供给聚类确定单元625,并且处理进行到步骤S653。
在步骤S653和随后的步骤S654中,聚类确定单元625(图55)使用来自聚类模型选择单元623的关注模型和来自特征量提取单元624的回放对象内容的各个帧的特征量,来确定回放对象内容的各个帧所属的聚类,并且将表示作为该聚类的聚类结果的聚类信息提供(输出)到场景分类单元612。
具体地,在步骤S653中,聚类确定单元623通过使用用作来自聚类模型选择单元623的关注模型的代码本,使来自特征量提取单元624的回放对象内容的各个帧的特征量(矢量)进行矢量量化,对回放对象内容的各个帧进行聚类,并且处理进行到步骤S654。
在步骤S654中,聚类确定单元625将作为回放对象内容的各个帧的矢量量化结果的代码(的序列)输出到场景分类单元612(图53)作为聚类信息,并且回放对象内容的聚类处理结束。
注意,不使用作为新矢量量化模型的状态转移概率的代码转移概率用于使用新矢量量化模型进行的聚类,但是在执行在图56至图58中描述的二维图显示的情况下,根据该状态之间的状态转移概率绘制连接在模型图上的状态之间的线段时采用代码转移概率。
图70是示出表示在采用新矢量量化模型作为聚类模型的情况下的聚类的图形模型的图。
图70中的图形模型表示在对应于作为回放对象内容的时间点t处的帧的矢量量化结果的代码s(t)的状态(在图70中,T表示回放对象内容的帧的数目)下观测回放对象内容的时间点t处的帧的特征量xt
另外,代码s(t)表示已经使回放对象内容的时间点t处的帧聚类成对应于代码s(t)(对应于代码s(t)的状态)的聚类。
[在聚类模型是新GMM的情况下的聚类模型的学习]
图71是用于描述在聚类模型是新GMM的情况下、聚类模型学习单元621(图55)执行的聚类模型学习处理的流程图。
在步骤S661中,聚类模型学习单元621取存储在内容存储单元601中的内容作为用于学习的内容以学习聚类模型,并且针对各个类别,将用于学习的内容进行分类。
随后,例如,聚类模型学习单元621以与图2中的内容模型学习单元相同的方式,提取用于学习的内容的各个帧的特征量(矢量),并且处理从步骤S661进行到步骤S662。
在步骤S662中,关于各个类别,聚类模型学习单元621使用该类别的用于学习的内容的各个帧的特征量来执行一般的GMM的学习,由此获得GMM的类(class)的平均值(矢量)和离差,并且处理进行到步骤S663。
具体地,聚类模型学习单元621获得规定作为帧的特征量的空间(特征量空间)的部分空间(分布)的类的平均值和离差。
这里,规定类的平均值和离差将分别称为类平均值和类离差。由类平均值和类离差规定的类对应于作为状态转移模型的新GMM的状态,并且由此对应于聚类。
现在,假设GMM的类的总数是N,并且在N个类中,第n个类n的类平均值和类离差分别被表示为μn和σ2 n
在步骤S663中,关于各个类别,聚类模型学习单元621通过分类成该类别的GMM的一个类,使该类别的用于学习的内容的各个帧的特征量聚类,并且输出用作聚类结果的从特征量分类的类的序列(类序列),并且处理进行到步骤S664。
具体地,如果假设用于学习的内容的时间点t处的帧的特征量(矢量)被表示为xt,则聚类模型学习单元621通过将特征量xt分类成由表达式s(t)=argmax{Normal(xt;μn,σ2 n)}表示的类s(t)来执行聚类。
这里,对于表达式s(t)=argmax{Normal(xt;μn,σ2 n)},Normal(xt;μn,σ2 n)表示如下正态分布的函数值:其中,平均值(矢量)是类平均值μn,离差是类离差σ2 n,并且变元是特征量xt
因此,根据表达式s(t)=argmax{Normal(xt;μn,σ2 n)},通过使特征量xt分类成使用特征量xt作变元的正态分布函数的函数值最大化的类n而使特征量xt聚类。
通过关于各个类别按时间序列将该类别的用于学习的内容的各个帧的特征量分类成该类别的GMM的一个类,聚类模型学习单元621执行聚类,并且输出用作聚类结果的类序列s(1)、s(2)、...、s(T)(T表示回放对象内容的帧的数目)。
在步骤S664中,关于各个类别,基于该类别的类序列s(1)至s(T),聚类模型学习单元621获得对应于类的状态的状态转移概率(在下文中,还称为“类转移概率”),并且处理进行到步骤S665。
具体地,聚类模型学习单元621获得类转移概率Aij=P(j=s(t+1)|i=s(t)),其是将进行从对应于某一时间点t处的类s(t)的状态i到对应于下一时间点t+1处的类s(t+1)的状态j的状态转移的状态转移概率。
注意,利用类序列s(1)至s(T),如果假设从对应于时间点t处的类i的状态i到对应于在下一时间点t+1处的类j的状态j的状态转移的次数被表示为mi,j,则以与以上代码转移概率相同的方式,用表达式P(s(t+1)|s(t))=ms(t),s(t+1)/∑ms(t),n表示将进行从对应于时间点t处的类s(t)的状态到对应于在下一时间点t+1处的类s(t+1)的状态的状态转移的状态转移概率P(s(t+1)|(s(t))。
这里,利用表达式P(s(t+1)|s(t))=ms(t),s(t+1)/∑ms(t),n,右边的分母的∑表示通过将n变成从1到N的整数而获得的和。
在步骤S665中,聚类模型学习单元621将关于各个类别获得的GMM和类转移概率Aij的集提供并存储到聚类模型存储单元622作为新GMM,其是包括对应于类的状态和用类转移概率Aij作为状态转移概率的状态转移的状态转移模型,并且聚类模型学习处理结束。
[在聚类模型是新GMM的情况下的聚类]
图72是用于描述在聚类模型是新GMM的情况下、聚类单元611(图55)执行的回放对象内容的聚类处理的流程图。
在步骤S671中,聚类模型选择单元623(图55)从存储在聚类模型存储单元622中的用于各个类别的聚类模型之中,选择其类别与回放对象内容的类别匹配的聚类模型作为用于聚类的关注模型,将其提供给聚类确定单元625,并且处理进行到步骤S672。
在步骤S672中,特征量提取单元624(图55)提取来自内容存储设备601的回放对象内容的各个帧的特征量(与用于用作内容模型的新GMM的学习的特征量相同的特征量),将其提供给聚类确定单元625,并且处理进行到步骤S673。
在步骤S673和随后的步骤S674中,聚类确定单元625(图55)使用来自聚类模型选择单元623的关注模型和来自特征量提取单元624的回放对象内容的各个帧的特征量,以确定回放对象内容的各个帧所属的聚类,并且将表示作为该聚类的聚类结果的聚类信息提供(输出)到场景分类单元612。
具体地,在步骤S673中,通过执行的用于将来自特征量提取单元624的回放对象内容的各个帧的特征量分类成用作来自聚类模型选择单元623的关注模型的GMM的一个类的类分类,聚类确定单元623使回放对象内容的各个帧聚类,并且处理进行到步骤S674。
在步骤S674中,聚类确定单元625将作为回放对象内容的各个帧的类分类结果的类(的序列)输出到场景分类单元612(图53)作为聚类信息,并且回放对象内容的聚类处理结束。
注意,不使用作为新GMM的状态转移概率的类转移概率用于使用新GMM进行的聚类,但是在执行在图56至图58中描述的二维图显示的情况下,根据该状态之间的状态转移概率绘制连接在模型图上的状态之间的线段时采用类转移概率。
另外,表示在采用新GMM作为聚类模型的情况下的聚类的图形模型与图70中示出的、表示在采用新矢量量化模型的情况下的聚类的图形模型相同,所以将省略其描述。
目前为止已经关于采用作为状态转移模型的HMM、新矢量量化模型以及新GMM的情况进行了描述,但是关于聚类模型,例如可以采用除了状态转移模型之外的模型,即代码本或GMM。
甚至在采用除了状态转移模型之外的代码本或GMM的情况下,聚类单元611可以执行在图69或图72中描述的采用代码本的矢量量化、采用GMM的类分类作为聚类。
然而,在采用除了状态转移模型之外的代码本或GMM的情况下,不存在状态转移概率,所以可以不执行在其中执行采用状态转移概率的显示的二维图显示(可以执行状态显示、2窗格显示、5窗格显示、时间序列显示以及平铺显示)。
[应用本发明的计算机的描述]
接下来,可以由硬件执行以上系列处理,并且可以由软件执行。在由软件执行系列处理的情况下,构成该软件的程序被安装到通用计算机等。
因此,图73示出了其内安装有执行以上系列处理的程序的计算机的实施例的配置示例。
可以在用作安置在计算机中的记录介质的硬盘1005或ROM 1003中预先记录程序。
可替选地,可以在被安装在驱动器1009上的可拆卸记录介质中预先存储(记录)程序。可以提供这样的可拆卸记录介质1001作为所谓的套装软件(package software)。这里,可拆卸记录介质1011的示例包括软盘、CD-ROM(致密盘-只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘以及半导体存储器。
注意,除了从如上所述的可拆卸记录介质1011安装到计算机之外,可以经由通信网络或广播网络将程序下载到计算机,并安装到嵌入的硬盘1005。具体地,例如,可以经由用于数字卫星广播的卫星将程序从下载站点无线传输到计算机,或者可以经由诸如LAN(局域网)或因特网的网络通过缆线将程序传输到计算机。
计算机容纳CPU(中央处理单元)1002,并且CPU 1002经由总线1001连接到输入/输出接口1010。
在由用户经由输入/输出接口1010操作输入单元1007等输入命令时,据此,CPU 1002执行存储在ROM(只读存储器)1003中的程序。可替选地,CPU 1002将存储在硬盘1005中的程序载入RAM(随机存取存储器)1004并执行该程序。
因此,CPU 1002执行根据以上流程图的处理、或要通过以上框图的配置所执行的处理。随后,对于CPU 1002,根据需要,例如,处理结果经由输入/输出接口1010从输出单元1006输出、或从通信单元1008传输、或此外记录在硬盘中等。
注意,输入单元1007由键盘、鼠标、麦克风等构成。此外,输出单元1006由LCD(液晶显示器)、扬声器等构成。
现在,通过本说明书,计算机根据程序执行的处理不一定沿着如流程图中描述的顺序按时间序列执行。具体地,计算机根据程序执行的处理还包括并行或单独执行的处理(例如并行处理或由对象进行处理)。
此外,程序可以是由单个计算机(处理器)执行的程序、或者由多个计算机以分布式方式处理的程序。另外,程序可以是要传输到远程计算机并且在远程计算机被执行的程序。
注意,本发明的实施例并不限于上述实施例,并且在不脱离本发明的实质和精神的情况下,可以进行各种改变。
附图标记列表
11 内容存储单元
12 内容模型学习单元
13 模型存储单元
14 内容结构呈现单元
15 摘要生成单元
16 剪贴簿生成单元
21 学习内容选择单元
22 特征量提取单元
23 帧划分单元
24 子区域特征量提取单元
25 连接单元
26 特征量存储单元
27 学习单元
31 内容选择单元
32 模型选择单元
33 特征量提取单元
34 最大似然状态序列估计单元
35 状态对应图像信息生成单元
36 状态间距离计算单元
37 坐标计算单元
38 图绘制单元
39 显示控制单元
51 高亮检测器学习单元
52 检测器存储单元
53 高亮检测单元
61 内容选择单元
62 模型选择单元
63 特征量提取单元
64 最大似然状态序列估计单元
65 高亮标记生成单元
66 学习标记生成单元
67 学习单元
71 内容选择单元
72 模型选择单元
73 特征量提取单元
74 最大似然状态序列估计单元
75 检测标记生成单元
76 检测器选择单元
77 最大似然状态序列估计单元
78 高亮场景检测单元
79 摘要内容生成单元
80 回放控制单元
101 初始剪贴簿生成单元
102 初始剪贴簿存储单元
103 登记剪贴簿生成单元
104 登记剪贴簿存储单元
105 回放控制单元
111 内容选择单元
112 模型选择单元
113 特征量提取单元
114 最大似然状态序列估计单元
115 状态对应图像信息生成单元
116 状态间距离计算单元
117 坐标计算单元
118 图绘制单元
119 显示控制单元
121 状态选择单元
122 选择状态登记单元
141 剪贴簿选择单元
142 内容选择单元
143 模型选择单元
144 特征量提取单元
145 最大似然状态序列估计单元
146 帧提取单元
147 帧登记单元
201 内容模型学习单元
202 模型存储单元
202a 图像模型存储单元
202b 音频模型存储单元
202c 对象模型存储单元
203 内容结构呈现单元
204 摘要生成单元
205 剪贴簿生成单元
220 图像特征量提取单元
221 音频特征量提取单元
222 音频特征量存储单元
223 学习单元
224 对象特征量提取单元
225 对象特征量存储单元
226 学习单元
241 原始特征量提取单元
242 平均计算单元
243 离差计算单元
224 连接单元
261 对象提取单元
262 帧划分单元
263 子区域特征量提取单元
264 连接单元
291 高亮检测器学习单元
292 检测器存储单元
293 高亮检测单元
311 图像模型选择单元
312 图像特征量提取单元
313 图像最大似然状态序列估计单元
314 学习标记生成单元
315 学习单元
316 音频模型选择单元
317 音频特征量提取单元
318 音频最大似然状态序列估计单元
319 对象模型选择单元
320 对象特征量提取单元
321 对象最大似然状态序列估计单元
341 图像模型选择单元
342 图像特征量提取单元
343 图像最大似然状态序列估计单元
344 检测标记生成单元
345 检测器选择单元
346 最大似然状态序列估计单元
347 高亮场景检测单元
348 摘要内容生成单元
349 回放控制单元
350 音频模型选择单元
351 音频特征量提取单元
352 音频最大似然状态序列估计单元
353 对象模型选择单元
354 对象特征量提取单元
355 对象最大似然状态序列估计单元
371 初始剪贴簿生成单元
372 初始剪贴簿存储单元
373 登记剪贴簿生成单元
374 登记剪贴簿存储单元
375 回放控制单元
411 图像模型选择单元
412 图像特征量提取单元
413 图像最大似然状态序列估计单元
414 图像状态对应图像信息生成单元
415 图像状态间距离计算单元
416 图像坐标计算单元
417 图像图绘制单元
418 显示控制单元
419 状态选择单元
420 选择状态登记单元
421 音频模型选择单元
422 音频特征量提取单元
423 音频最大似然状态序列估计单元
424 音频状态对应图像信息生成单元
425 音频状态间距离计算单元
426 音频坐标计算单元
427 音频图绘制单元
428 对象模型选择单元
429 对象特征量提取单元
430 对象最大似然状态序列估计单元
431 对象状态对应图像信息生成单元
432 对象状态间距离计算单元
433 对象坐标计算单元
434 对象图绘制单元
501 图像模型选择单元
502 图像特征量提取单元
503 图像最大似然状态序列估计单元
504 帧提取单元
505 帧登记单元
506 音频模型选择单元
507 音频特征量提取单元
508 音频最大似然状态序列估计单元
509 对象模型选择单元
510 对象特征量提取单元
511 对象最大似然状态序列估计单元
601 内容存储设备
602 显示控制设备
603 显示设备
611 聚类单元
612 场景分类单元
613 缩略图创建单元
614 显示控制单元
615 操作单元
616 控制单元
621 聚类模型学习单元
622 聚类模型存储单元
623 聚类模型选择单元
624 特征量提取单元
625 聚类确定单元
631 回放窗口
632 聚类窗口
641 回放窗口
642至644 聚类窗口
645 缩略图窗口
651 回放窗口
652 缩略图图像组
1001 总线
1002 CPU
1003 ROM
1004 RAM
1005 硬盘
1006 输出单元
1007 输入单元
1008 通信单元
1009 驱动器
1010 输入/输出接口
1011 可拆卸记录介质

Claims (20)

1.一种显示控制设备,包括:
聚类装置,其被配置用于使内容的各个帧聚类成多个聚类中的任一聚类;
场景分类装置,其被配置用于关于所述多个聚类的各个聚类,将属于所述聚类的帧分类成作为在时间上连续的一个或多个帧的组的场景;
缩略图创建装置,其被配置用于创建所述场景的缩略图;以及
显示控制装置,其被配置用于在被配置用于显示图像的显示设备上,显示所述场景的缩略图。
2.根据权利要求1所述的显示控制设备,其中,所述聚类装置使用包括状态和状态转移的状态转移模型,来使得所述内容的帧聚类成与所述状态对应的聚类。
3.根据权利要求2所述的显示控制设备,其中,所述显示控制装置生成作为下述二维图的模型图:其中,在所述二维图中,状态被布置成使得所述状态转移模型中能够相互进行状态转移的状态彼此靠近,并且所述显示控制装置执行二维图显示的显示控制,用于在所述模型图的各个状态的位置中布置和显示场景的缩略图,其中所述场景包括属于与所述状态对应的聚类的帧。
4.根据权利要求3所述的显示控制设备,还包括:
控制装置,其被配置用于控制所述内容的回放;
其中,所述显示控制装置在所述模型图的、与回放对象帧所属的聚类对应的状态的位置中,显示作为要播放的帧的所述回放对象帧。
5.根据权利要求4所述的显示控制设备,其中,所述控制装置基于用于指示所述模型图上的状态的指令输入,将属于与所述指令输入指示的状态对应的聚类的帧作为所述回放对象帧,来播放所述内容。
6.根据权利要求3所述的显示控制设备,其中,所述显示控制装置基于从一个状态到另一个状态的状态转移的状态转移概率,获得从所述状态转移模型的所述一个状态到所述另一个状态的状态间距离,获得作为所述模型图上的所述状态的位置的坐标的状态坐标,以使得所述模型图上的、从所述一个状态到所述另一个状态的欧几里得距离与所述状态间距离的差别较小,并且生成所述模型图,其中,在所述模型图中,彼此对应的所述状态布置在所述状态坐标的位置中。
7.根据权利要求6所述的显示控制设备,其中,所述显示控制装置获得所述状态坐标,以便使得与所述欧几里得距离和所述状态间距离之间的统计误差成比例的Sammon映射误差函数最小化,并且在从所述一个状态到所述另一个状态的欧几里得距离大于预定阈值的情况下,通过将从所述一个状态到所述另一个状态的欧几里得距离设置为等于从所述一个状态到所述另一个状态的所述状态间距离的距离,执行所述误差函数的计算。
8.根据权利要求2所述的显示控制设备,其中,所述显示控制装置执行状态显示的显示控制,用于布置和显示场景的缩略图,其中,所述场景包括属于通过如下处理获得的矩形聚类区域中的相应聚类的帧:根据与所述状态转移模型的状态对应的聚类,对所述显示设备的显示屏幕进行分割。
9.根据权利要求8所述的显示控制设备,还包括:
控制装置,其被配置用于基于用于指示所述聚类区域的指令输入,将属于与所述指令输入指示的聚类区域对应的聚类的帧作为回放对象帧,来播放所述内容,其中,所述回放对象帧是要播放的帧。
10.根据权利要求2所述的显示控制设备,还包括:
控制装置,其被配置用于控制所述内容的回放;
其中,所述显示控制装置执行两窗格显示的显示控制,用于显示场景的缩略图,其中,所述场景包括作为要播放的帧的回放对象帧、以及属于所述回放对象帧所属的聚类的帧。
11.根据权利要求10所述的显示控制设备,其中,所述控制装置基于用于指示所述缩略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧,来播放所述内容。
12.根据权利要求2所述的显示控制设备,还包括:
控制装置,其被配置用于控制所述内容的回放;
其中,所述显示控制装置执行5窗格显示的显示控制,用于显示:作为要播放的帧的回放对象帧;场景的缩略图,所述场景包括属于所述回放对象帧所属的聚类的帧;场景的缩略图,所述场景包括属于在包括所述回放对象帧的场景紧接之后的场景的帧所属的聚类的帧;场景的缩略图,所述场景包括属于在包括所述回放对象帧的场景紧接之前的场景的帧所属的聚类的帧;以及所述内容的所有场景的缩略图。
13.根据权利要求12所述的显示控制设备,其中,所述控制装置基于用于指示所述缩略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧,来播放所述内容。
14.根据权利要求2所述的显示控制设备,还包括:
控制装置,其被配置用于控制所述内容的回放;
其中,所述显示控制装置执行时间序列显示的显示控制,用于显示作为要播放的帧的回放对象帧,并且还通过在所述时间序列中进行排列,显示包括所述回放对象帧的场景的缩略图、在包括所述回放对象帧的场景之后的一个或多个场景的缩略图、以及在包括所述回放对象帧的场景之前的一个或多个场景的缩略图。
15.根据权利要求14所述的显示控制设备,其中,所述控制装置基于用于指示所述缩略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧,来播放所述内容。
16.根据权利要求2所述的显示控制设备,其中,所述显示控制装置执行平铺显示的显示控制,用于通过在时间序列中进行排列,显示所述内容的所有场景的缩略图。
17.根据权利要求16所述的显示控制设备,还包括:
控制装置,其被配置用于控制所述内容的回放;
其中,所述显示控制装置在包括回放对象帧的场景的缩略图的位置中,显示作为要播放的帧的所述回放对象帧。
18.根据权利要求17所述的显示控制设备,其中,所述控制装置基于用于指示所述缩略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧,来播放所述内容。
19.一种利用显示控制设备的显示控制方法,包括以下步骤:
使内容的各个帧聚类成多个聚类中的任一聚类;
关于所述多个聚类的各个聚类,将属于所述聚类的帧分割成作为在时间上连续的一个或多个帧的组的场景;
创建所述场景的缩略图;以及
在用于显示图像的显示设备上,显示所述场景的缩略图。
20.一种使得计算机用作以下装置的程序:
聚类装置,其被配置用于使内容的各个帧聚类成多个聚类中的任一聚类;
场景分类装置,其被配置用于关于所述多个聚类的各个聚类,将属于所述聚类的帧分割成作为在时间上连续的一个或多个帧的组的场景;
缩略图创建装置,其被配置用于创建所述场景的缩略图;以及
显示控制装置,其被配置用于在被配置用于显示图像的显示设备上,显示所述场景的缩略图。
CN2010800019205A 2009-04-30 2010-04-22 显示控制设备、显示控制方法 Expired - Fee Related CN102077580B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2009-110292 2009-04-30
JP2009110292 2009-04-30
JP2009277055 2009-12-04
JP2009-277055 2009-12-04
PCT/JP2010/057129 WO2010125962A1 (ja) 2009-04-30 2010-04-22 表示制御装置、表示制御方法、及び、プログラム

Publications (2)

Publication Number Publication Date
CN102077580A true CN102077580A (zh) 2011-05-25
CN102077580B CN102077580B (zh) 2013-11-06

Family

ID=42635483

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2010800019205A Expired - Fee Related CN102077580B (zh) 2009-04-30 2010-04-22 显示控制设备、显示控制方法
CN201010170893.6A Expired - Fee Related CN101877060B (zh) 2009-04-30 2010-04-23 信息处理设备和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201010170893.6A Expired - Fee Related CN101877060B (zh) 2009-04-30 2010-04-23 信息处理设备和方法

Country Status (6)

Country Link
US (1) US8457469B2 (zh)
EP (2) EP2426917A4 (zh)
JP (1) JP5533861B2 (zh)
CN (2) CN102077580B (zh)
RU (1) RU2494566C2 (zh)
WO (1) WO2010125962A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572599A (zh) * 2012-03-01 2012-07-11 盛乐信息技术(上海)有限公司 音视频显示方法及系统
CN103067780A (zh) * 2011-10-18 2013-04-24 索尼公司 图像处理装置、图像处理方法和程序
CN104038832A (zh) * 2014-02-22 2014-09-10 小米科技有限责任公司 一种播放视频的方法及装置
CN104573730A (zh) * 2015-01-29 2015-04-29 中国科学院深圳先进技术研究院 一种基于决定路径权重的不确定图分割方法及系统
CN107330392A (zh) * 2017-06-26 2017-11-07 司马大大(北京)智能系统有限公司 视频场景标注装置与方法
CN107925720A (zh) * 2015-08-20 2018-04-17 索尼公司 用于控制图像的捕获的系统和方法
CN108415377A (zh) * 2017-02-10 2018-08-17 欧姆龙株式会社 可编程显示器、显示控制方法及显示控制程序
CN110248250A (zh) * 2018-09-27 2019-09-17 浙江大华技术股份有限公司 一种视频回放的方法及装置
CN110321449A (zh) * 2019-06-28 2019-10-11 维沃移动通信有限公司 一种图片显示方法及终端
CN110347875A (zh) * 2019-07-08 2019-10-18 北京字节跳动网络技术有限公司 一种视频场景分类方法、装置、移动终端及存储介质
CN111738358A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN113741849A (zh) * 2021-07-30 2021-12-03 卡莱特云科技股份有限公司 基于场景列表的显示画面调整方法、装置及计算机设备

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543529B2 (en) * 2009-06-26 2013-09-24 Soundcloud Limited Content selection based on consumer interactions
KR20110066011A (ko) * 2009-12-10 2011-06-16 한국전자통신연구원 이미지 특성 추출을 이용한 유사 쉐이더 검색장치 및 방법
JP2012165240A (ja) * 2011-02-08 2012-08-30 Sony Corp 動画像処理装置、動画像処理方法、及びプログラム
JP5784404B2 (ja) * 2011-07-29 2015-09-24 オリンパス株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US8982958B2 (en) * 2012-03-07 2015-03-17 Intellectual Ventures Fund 83 Llc Video representation using a sparsity-based model
US8976299B2 (en) * 2012-03-07 2015-03-10 Intellectual Ventures Fund 83 Llc Scene boundary determination using sparsity-based model
US20130243077A1 (en) * 2012-03-13 2013-09-19 Canon Kabushiki Kaisha Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern
CN103093242A (zh) * 2013-01-23 2013-05-08 北京理工大学 基于多特征层次化判决的光学遥感图像云判别方法
US9336454B2 (en) * 2013-05-31 2016-05-10 Texas Instruments Incorporated Vector processor calculation of local binary patterns
CN103559504B (zh) * 2013-11-04 2016-08-31 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
FR3017480B1 (fr) * 2014-02-07 2017-09-08 Thales Sa Procede de detection et de classification d'evenements d'une scene
BR112016018024A2 (pt) * 2014-02-07 2017-08-08 Qualcomm Technologies Inc Reconhecimento de cena ao vivo que permite modificação de imagem dependente de cena antes de gravação ou exibição de imagem
US9568997B2 (en) * 2014-03-25 2017-02-14 Microsoft Technology Licensing, Llc Eye tracking enabled smart closed captioning
KR101581917B1 (ko) * 2014-08-12 2016-01-04 네이버 주식회사 컨텐츠 표시 제어 장치, 컨텐츠 표시 제어 방법 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램
CN107004117B (zh) 2014-12-09 2020-01-21 华为技术有限公司 一种检测发送序列的方法、接收机和接收设备
RU2611960C2 (ru) * 2015-03-31 2017-03-01 Общество С Ограниченной Ответственностью "Яндекс" Способ организации в кластеры точек интереса и сервер для его осуществления
SE538522C2 (en) * 2015-04-16 2016-09-06 Adtoox Ab Method and device for rendering video content and an image on a display
JP2017027145A (ja) * 2015-07-16 2017-02-02 ソニー株式会社 表示制御装置、表示制御方法、及び、プログラム
JP6501674B2 (ja) * 2015-08-21 2019-04-17 キヤノン株式会社 画像処理装置及び画像処理方法
WO2017074448A1 (en) * 2015-10-30 2017-05-04 Hewlett-Packard Development Company, L.P. Video content summarization and class selection
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
JP7086521B2 (ja) 2017-02-27 2022-06-20 ヤマハ株式会社 情報処理方法および情報処理装置
JP6856115B2 (ja) * 2017-02-27 2021-04-07 ヤマハ株式会社 情報処理方法および情報処理装置
US10754514B1 (en) 2017-03-01 2020-08-25 Matroid, Inc. Machine learning in video classification with schedule highlighting
CN106886771B (zh) * 2017-03-15 2020-08-18 同济大学 基于模块化pca的图像主信息提取方法及人脸识别方法
CN110770760B (zh) * 2017-05-19 2024-01-12 渊慧科技有限公司 视觉交互网络系统及其方法、训练方法和计算机存储介质
CN107301858B (zh) * 2017-05-31 2020-09-22 华南理工大学 基于音频特征空间分层描述的音频分类方法
US11093788B2 (en) * 2018-02-08 2021-08-17 Intel Corporation Scene change detection
US20200103309A1 (en) * 2018-09-28 2020-04-02 Computational Systems, Inc. Historical Playback of Waveform Data
CN111372038B (zh) * 2018-12-26 2021-06-18 厦门星宸科技有限公司 多串流影像处理装置及方法
US11146843B2 (en) * 2019-06-17 2021-10-12 Accenture Global Solutions Limited Enabling return path data on a non-hybrid set top box for a television

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1093925A (ja) * 1996-09-18 1998-04-10 Nikon Corp ビデオ装置
JP2000011093A (ja) * 1998-06-23 2000-01-14 Ntt Data Corp 認識装置における識別空間の表現方法、テンプレート評価方法及び学習装置、記録媒体
JP2002288219A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 情報検索システムおよび方法
JP2006012174A (ja) * 2004-06-28 2006-01-12 Mitsubishi Electric Research Laboratories Inc ビデオ中の異常事象を検出する方法
JP2008153920A (ja) * 2006-12-18 2008-07-03 Sharp Corp 動画像一覧表示装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
JP4227241B2 (ja) 1999-04-13 2009-02-18 キヤノン株式会社 画像処理装置及び方法
US7346920B2 (en) * 2000-07-07 2008-03-18 Sonic Solutions, A California Corporation System, method and article of manufacture for a common cross platform framework for development of DVD-Video content integrated with ROM content
US6807361B1 (en) * 2000-07-18 2004-10-19 Fuji Xerox Co., Ltd. Interactive custom video creation system
US7657102B2 (en) * 2003-08-27 2010-02-02 Microsoft Corp. System and method for fast on-line learning of transformed hidden Markov models
EP1538536A1 (en) * 2003-12-05 2005-06-08 Sony International (Europe) GmbH Visualization and control techniques for multimedia digital content
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
JP4140579B2 (ja) * 2004-08-11 2008-08-27 ソニー株式会社 画像処理装置および方法、撮影装置、並びにプログラム
US7594177B2 (en) * 2004-12-08 2009-09-22 Microsoft Corporation System and method for video browsing using a cluster index
KR100782810B1 (ko) * 2005-01-07 2007-12-06 삼성전자주식회사 확장 검색 기능을 제공하기 위한 메타데이터가 기록된 저장매체를 재생하는 방법 및 장치
US7716194B2 (en) * 2005-01-12 2010-05-11 Microsoft Corporation File management system employing time line based representation of data
JP4841553B2 (ja) * 2005-08-17 2011-12-21 パナソニック株式会社 映像シーン分類装置、映像シーン分類方法、プログラム、記録媒体、集積回路およびサーバ−クライアントシステム
EP1830361A1 (en) * 2006-03-02 2007-09-05 Sony Corporation Image displaying method and video playback apparatus
JP4728917B2 (ja) 2006-09-06 2011-07-20 日本電信電話株式会社 光コネクタ
JP2008064994A (ja) 2006-09-06 2008-03-21 Ricoh Opt Ind Co Ltd 光源装置および光学装置
JP5034516B2 (ja) 2007-01-26 2012-09-26 富士通モバイルコミュニケーションズ株式会社 ハイライトシーン検出装置
JP2008312183A (ja) 2007-05-15 2008-12-25 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009047721A (ja) 2007-08-13 2009-03-05 Sony Corp 表示制御装置、表示制御方法、プログラム
JP2009110292A (ja) 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 電子メール処理システムおよび装置
JP2009277055A (ja) 2008-05-15 2009-11-26 Toshiba Tec Corp 商品販売データ処理システム、商品販売データ処理装置、及び、顧客所持端末用プログラム
US20110058788A1 (en) * 2008-05-16 2011-03-10 Kazuhisa Asao Recording/playback device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1093925A (ja) * 1996-09-18 1998-04-10 Nikon Corp ビデオ装置
JP2000011093A (ja) * 1998-06-23 2000-01-14 Ntt Data Corp 認識装置における識別空間の表現方法、テンプレート評価方法及び学習装置、記録媒体
JP2002288219A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 情報検索システムおよび方法
JP2006012174A (ja) * 2004-06-28 2006-01-12 Mitsubishi Electric Research Laboratories Inc ビデオ中の異常事象を検出する方法
JP2008153920A (ja) * 2006-12-18 2008-07-03 Sharp Corp 動画像一覧表示装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067780A (zh) * 2011-10-18 2013-04-24 索尼公司 图像处理装置、图像处理方法和程序
CN103067780B (zh) * 2011-10-18 2017-05-17 索尼公司 图像处理装置和图像处理方法
CN102572599A (zh) * 2012-03-01 2012-07-11 盛乐信息技术(上海)有限公司 音视频显示方法及系统
CN104038832A (zh) * 2014-02-22 2014-09-10 小米科技有限责任公司 一种播放视频的方法及装置
CN104573730A (zh) * 2015-01-29 2015-04-29 中国科学院深圳先进技术研究院 一种基于决定路径权重的不确定图分割方法及系统
US10484598B2 (en) 2015-08-20 2019-11-19 Sony Corporation System and method for controlling capture of images
CN107925720A (zh) * 2015-08-20 2018-04-17 索尼公司 用于控制图像的捕获的系统和方法
CN108415377A (zh) * 2017-02-10 2018-08-17 欧姆龙株式会社 可编程显示器、显示控制方法及显示控制程序
US11321102B2 (en) 2017-02-10 2022-05-03 Omron Corporation Programmable display, display control method, and display control program
CN107330392A (zh) * 2017-06-26 2017-11-07 司马大大(北京)智能系统有限公司 视频场景标注装置与方法
CN110248250A (zh) * 2018-09-27 2019-09-17 浙江大华技术股份有限公司 一种视频回放的方法及装置
CN110321449A (zh) * 2019-06-28 2019-10-11 维沃移动通信有限公司 一种图片显示方法及终端
CN110347875A (zh) * 2019-07-08 2019-10-18 北京字节跳动网络技术有限公司 一种视频场景分类方法、装置、移动终端及存储介质
CN110347875B (zh) * 2019-07-08 2022-04-15 北京字节跳动网络技术有限公司 一种视频场景分类方法、装置、移动终端及存储介质
CN111738358A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN111738358B (zh) * 2020-07-24 2020-12-08 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
US11314897B2 (en) 2020-07-24 2022-04-26 Alipay (Hangzhou) Information Technology Co., Ltd. Data identification method, apparatus, device, and readable medium
CN113741849A (zh) * 2021-07-30 2021-12-03 卡莱特云科技股份有限公司 基于场景列表的显示画面调整方法、装置及计算机设备

Also Published As

Publication number Publication date
JPWO2010125962A1 (ja) 2012-10-25
WO2010125962A1 (ja) 2010-11-04
RU2494566C2 (ru) 2013-09-27
RU2010154157A (ru) 2012-07-20
EP2426917A4 (en) 2016-09-28
EP2426917A1 (en) 2012-03-07
US20120033933A1 (en) 2012-02-09
EP2246807A1 (en) 2010-11-03
CN102077580B (zh) 2013-11-06
JP5533861B2 (ja) 2014-06-25
CN101877060B (zh) 2015-04-22
US8457469B2 (en) 2013-06-04
CN101877060A (zh) 2010-11-03

Similar Documents

Publication Publication Date Title
CN102077580B (zh) 显示控制设备、显示控制方法
CN102214304A (zh) 信息处理设备、信息处理方法、和程序
CN101162470B (zh) 一种基于分层匹配的视频广告识别方法
JP6397144B2 (ja) 画像からの事業発見
US8503770B2 (en) Information processing apparatus and method, and program
CN101617530B (zh) 图像处理设备、动态画面再现设备及其处理方法
CN102663448B (zh) 一种基于网络的增强现实物体识别分析方法
CN102342124B (zh) 用于提供与广播节目相关的信息的装置和方法
CN107846561B (zh) 确定和显示上下文定向内容的方法及系统
CN102087576B (zh) 显示屏控制方法、图形用户接口、信息处理设备和方法
CN103426003A (zh) 增强现实交互的实现方法和系统
CN105872717A (zh) 视频处理方法及系统、视频播放器与云服务器
WO2020259510A1 (zh) 信息植入区域的检测方法、装置、电子设备及存储介质
CN112101329B (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN101783886A (zh) 信息处理设备、信息处理方法和程序
CN103686344A (zh) 增强视频系统及方法
CN103052953A (zh) 信息处理设备、信息处理方法和程序
CN110364146A (zh) 语音识别方法、装置、语音识别设备及存储介质
CN114707034B (zh) 一种基于vr可视化技术的智慧展厅智能展览管理系统
CN101414302A (zh) 电子装置、内容分类方法及其程序
CN106663196A (zh) 视频中的计算机显著人物识别
CN103067780A (zh) 图像处理装置、图像处理方法和程序
CN104025615A (zh) 交互式视频流
CN111491187A (zh) 视频的推荐方法、装置、设备及存储介质
CN109408672A (zh) 一种文章生成方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131106

Termination date: 20150422

EXPY Termination of patent right or utility model