CN101529373A - 确定和推荐用于文档的文档控制策略的系统和方法 - Google Patents
确定和推荐用于文档的文档控制策略的系统和方法 Download PDFInfo
- Publication number
- CN101529373A CN101529373A CNA2007800391075A CN200780039107A CN101529373A CN 101529373 A CN101529373 A CN 101529373A CN A2007800391075 A CNA2007800391075 A CN A2007800391075A CN 200780039107 A CN200780039107 A CN 200780039107A CN 101529373 A CN101529373 A CN 101529373A
- Authority
- CN
- China
- Prior art keywords
- document
- control policy
- document control
- node
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2145—Inheriting rights or properties, e.g., propagation of permissions or restrictions within a hierarchy
Abstract
本说明书描述了识别用于给定文档的适当文档控制策略的相关技术。概括地说,一种方法可以包括:确定文档的文体分类,该文体分类包括多个项以及表示该项关于该文档的置信度水平的相应分数;根据文体分类在文档控制策略本体中识别相关节点;至少部分地基于至少一个分数评估该相关节点的可用性的置信度水平;如果所评估的该相关节点的可用性的置信度水平低于阈值,则在文档控制策略本体中选择该相关节点的父节点以代表该相关节点;以及基于在文档控制策略本体中所识别的或所选择的相关节点,推荐至少一个文档控制策略以管理对该文档的访问。
Description
技术领域
本公开涉及识别用于给定文档的适当文档控制策略。
背景技术
文档控制策略包括文档访问策略和文档保留策略。文档安全策略是文档访问策略的一般例子。文档安全策略是规则框架内的一个实例,组织在该规则框架内建立多个必需的文档信息安全级别以获得特定期望机密性和隐私目标。策略是关于应用于文档内容的权限和特权、以及任何其他可能分配给或应用于文档的约束的声明。文档安全策略通常通过DRM(数字权限管理)系统来描述和/或实现。
文档保留策略是组织关于保存数据(尤其是电子文档)的规范化策略内的一个实例。与之相关的还有文档数据销毁策略,其是组织关于数据(尤其是电子文档)销毁/数据过期的规范化策略内的一个实例。文档数据销毁策略是文档保留策略的一种类型。文档保留策略通常通过记录归档系统来实现。
当一个文档被创建之后,用户通常手动地施行文档保留和安全策略,或者使用DRM系统(其中常常需要对新的未知文档进行人工干预)。另一种方法依赖信息科技工作流/内容管理系统(ITW/CMS)来帮助选择、分配和施行适当的策略。这种工作流和系统常常是高度定制化的、专门开发来用于公司的特定业务实践,并且利用将安全和保留策略与预定义文档类别紧密结合的分类系统。
发明内容
本说明书描述了识别用于给定文档的适当文档控制策略的相关技术。概括地说,本说明书描述的主题的一个方面可以包含于一种方法中,该方法包括:确定文档的文体分类,文体分类包括多个项(term)以及相应分数,每个分数对应一个项,表示该项关于该文档的置信度水平;通过将文体分类与文档控制策略本体进行比较,来在文档控制策略本体中识别一个相关节点;至少部分地基于至少一个分数评估相关节点的可用性的置信度水平;如果所评估的相关节点的可用性的置信度水平低于阈值,则在文档控制策略本体中选择该相关节点的父节点以代表该相关节点;并且基于在文档控制策略本体中所识别的或所选择的相关节点推荐至少一个文档控制策略以管理对该文档的访问。
确定可以包括:使用包括分级知识结构的文档文体本体对所述文档进行分类,所述分级知识结构包含项和概念的词汇表、以及用于文档文体分类的表示词汇表项和概念之间的相互关系的推理链;所述文体分类可以包括所述推理链的子集;以及所述识别可以包括检查与比所述推理链的子集的各项的最低水平高的水平相关联的项。该方法还包括基于与所述文档控制策略本体中的一个父节点的子节点相关联的多个文档控制策略的组合,导出用于所述文档控制策略本体中的所述父节点的文档控制策略;以及将导出的文档控制策略与文档控制策略本体中的父节点相关联。
所述导出的文档控制策略可以包括导出的安全策略和导出的保留策略,并且导出所述文档控制策略可以包括:组合与所述父节点的子节点相关联的安全策略的布尔值,以形成所述导出的安全策略;以及组合所识别的单独情况以形成所述导出的保留策略,所述所识别的单独情况是基于与子节点相关联的多个文档控制策略的关联变量。导出可以包括:从与所述文档控制策略本体中的子节点相关联的多个文档控制策略中导出集合了策略组成的文档控制策略,默认为更保守的策略组成。此外,所述导出可以包括递归地导出用于所述文档控制策略本体中的父节点的文档控制策略,直至根节点;并且其中所述导出和所述关联可以在部署所述文档控制策略本体之前执行。
所述推荐可以包括输出多个推荐的文档控制策略以及对应的来自所述文档控制策略本体的推理链。所述方法还包括:将来自多个推荐的文档控制策略的最高排名的文档控制策略自动应用于所述文档。
上述方面的其他实施例包括相应的系统、装置和计算机程序产品。例如,一种系统可以包括:用户接口设备;文档控制组件,包括包含文档控制策略的分级知识结构,所述文档控制策略包含根据与父节点的子节点相关联的规则的代数最大值而由所述父节点继承的至少一个文档控制策略;以及一个或多个计算机,其可操作为与所述用户接口设备和所述文档控制组件进行交互,以确定文档的文体分类,将所述文体分类与所述分级知识结构进行比较以在包括所述父节点的多个节点中识别一个相关节点,并且基于在所述分级知识结构中识别的相关节点推荐至少一个文档控制策略,来管理对所述文档的访问。所述一个或多个计算机可以包括一个个人计算机,并且所述个人计算机可以包括所述用户接口设备。
所述一个或多个计算机可以包括可操作为通过数据通信网络与所述用户接口设备进行交互的服务器,并且所述用户接口设备可操作为客户端而与所述服务器进行交互。所述系统还可以包括:用于文档文体分类的文档文体本体,所述文档文体本体包括分级知识结构,所述分级知识结构包含项和概念的词汇表,以及表示词汇表项和概念之间的相互关系的推理链;应用程序接口(API),配置为向所述文档控制组件提供对所述文档文体本体中的推理链的选定元素的访问;其中所述文档控制组件包括策略本体组件,该策略本体组件配置为推荐所述至少一个文档控制策略,并且其包括一个接口,策略管理组件通过该接口访问要应用到所述文档的至少一个文档控制策略。所述策略管理组件可以包括策略服务器,并且所述编程接口可以利用XML(可扩展标记语言)和XML方案(XSD)进行数据交换。
在本说明书中描述的主题的特定实施例可以实现为获得一个或多个下述优势。分级知识结构可以用于自动地对文档进行分类,并且随后推荐和应用适当的文档安全和保留策略。可以基于文档文体(例如文档类别和类型)自动地定位和推荐安全和保留策略,并且企业可以使用这些系统和方法使保护和保留文档的过程自动化。
可以进行关于文档的文体概括以推荐应当应用的一个或多个可能的策略。关于包含文档控制策略的分级知识结构概括文体分类的能力,其可以至少部分地将在文档分类中使用的分级表示与用于识别文档控制策略的分级表示分开。这允许方法和系统容易地在真实世界业务环境中使用,在这种环境中人类和机器代理可能难以高度精确地确定给定文档的确切类型或类别。
不需要高强度的人类干预或完善的自动文档分类器就可以定位有用和正确的策略。可以避免耗时且常常出错的人工过程以及人工辅助的DRM,并且可以自动地选择适当文档控制策略并将其应用到文档,而与生成该文档的用户的知识和能力无关。此外,在没有完整规定安全和保留策略的业务中,可以自动地进行相关文档文体的概括和推理以找到适当的候选策略。这对于涉及影响保障、保护和归档业务文档的义务的政府规范(例如2002年Sarbanes-Oxley法案)的公司来说特别有价值。
此外,系统是灵活的,因为新的安全和保留策略可以容易地增加和施行,并且新的文档类型可以容易地增加到文档分类系统,那些单独作出的改变不会当策略确定时引起两种类别的交集中的不兼容性。使用返回分级类别结构内的文档文体类别的分类器可以通过使用更概括的父分类来实现对小错误或误分类的更大容忍度,这种父分类具有更保守的规则但是仍然是正确的。
本发明的一个或多个实施例的细节在附图和下文描述中阐明。从这些描述、附图和权利要求书中,本发明的其他特征、方面和优势将变得明显。
附图说明
图1示出了配置用于自动确定和推荐文档控制策略的示例性系统。
图2示出了用于自动确定和推荐文档控制策略的示例性工作流。
图3是示出了确定、推荐文档控制策略并将其应用到文档的示例性过程的流程图。
图4示出了与示例性策略本体相比较的两个示例性分类器推理链。
各图中,相同参考编号和标记表示相同的元件。
具体实施方式
图1示出了配置用于自动确定和推荐文档控制策略的示例性系统。数据处理装置110可以包括硬件/固件、操作系统和一个或多个应用,包括文档控制组件120。文档控制组件120可以是文档处理应用(例如,可从加利福尼亚州圣何塞市的奥多比公司获得的 软件)或工作流引擎(例如,LiveCycleTM PolicyServer软件)的一部分。此外,文档控制组件120可以是大型文档处理系统诸如企业工作流系统、资源管理系统(例如,企业关系管理(ERM)系统或客户关系管理(CRM)系统)、或内容管理系统(例如,文档库或文档归档系统)的一部分。
此处使用的“应用”意指用户认为是用于已定义目的的专用计算机工具的计算机程序。应用可以整体地构建到数据处理装置110的操作系统(OS)中,或者应用可以具有位于不同位置的不同组件(例如,一部分在OS或内核模式下,一部分在用户模式下,一部分在远程服务器中)。此外,应用可以是图形用户接口应用(例如,Web浏览器),其连接到网络180上的一个或多个处理器190(例如,一个或多个Web服务器),并提供计算机工具作为网络服务。
文档控制组件120包括分级知识结构122,其包括文档控制策略。分级知识结构122可以是文档控制策略本体,具有规定包括安全访问限制和文档保留规范的控制参数的多个策略。分级知识结构122包括根据与父节点的子节点相关联的规则的代数最大值(例如DRM或保留规则)由父节点继承的至少一个文档控制策略。概括地说,这涉及导出集合了策略组成(来自多个与子节点相关联的文档控制策略)的文档控制策略(用于父节点),策略组成默认为更保守(更概括)的策略组成。用于确定代数最大值的具体示例性过程在下文中描述。
数据处理装置110包括一个或多个处理器130和至少一个计算机可读介质140。数据处理装置110还可以包括通信接口150以及一个或多个用户接口设备160。用户接口设备160可以包括显示屏、简键盘、鼠标、指示笔或其任意组合。此外,数据处理装置110(或网络180上可访问的另一数据处理识别)自己可以被看作用户接口设备(例如,当与作为Web服务递送的应用有关地可访问文档控制组件120时)。
一旦正确地编程,数据处理装置110就可操作为确定文档的文体分类,比较文体分类与分级知识结构122以识别包括父节点的多个节点中的一个相关节点,并基于在分级知识结构122中识别的相关节点推荐至少一个文档控制策略来管理对文档的访问(例如,用于文档的使用和保留限制)。此外,数据处理装置110可以是多个装置之一,这些装置通过网络180可通信地连接,且可操作(彼此协作地)为执行上述操作。因此,应当理解,文档控制组件120可以作为基于服务器的资源提供给装置110,并且文档控制组件120可以具有多个子组件,这些子组件可以在各种实现中分布于网络上的不同计算系统中。
图2示出了用于自动确定和推荐文档控制策略的示例性工作流。电子文档210(为了简洁将简称为文档)可以提供给文档分类器220。文档210可以是包括在分类文档210时可用的项的任意信息集合。文档210不需要对应于一个文件,文档可以存储在还包含其他文档的文件的一部分中,存储在专用于所讨论文档的单个文件中,或存储在多个协调文件中。
文档分类器220处理文档210以确定文档210的文体分类230。文档分类器220可以基于提供的知识结构自动地针对任意给定文档这样做(例如,自动将文档分类在文档类型树上)。例如,文档分类器220可以具有相关联的文档文体本体225,其包括分级知识结构,该分级知识结构包含项和概念的词汇表以及用于文档文体分类的表示这些词汇表项和概念之间的相互关系的推理链。文档文体本体225可以使用公共可得的文档分类器技术或使用在2006年3月3日提交、名称为“SYSTEM AND METHOD OF BUILDING ANDUSING HIERARCHICAL KNOWLEDGE STRUCTURES”的美国专利申请11/368,130中描述的技术来构建和访问,通过引用将上述专利申请整体包含于此。
在此使用的词“文体”用于涵盖文档类别信息(例如,题目类别,诸如收入、Photoshop和特征)以及文档类型信息(例如,工作流类型,诸如产品规范、产品手册、履历、发票和财务报告)。因此,文体包括主题相关分类以及以文档体裁、形式或在企业内的角色为特征的文档分类。
文档分类器220对于用于文档210的资源来说可以是是本地的(例如,在同一机器上)或远程的(例如,在通过网络可访问的另一机器上)。因此,文档分类器220可以构建在处理文档210的软件中,或者文档分类器220可以是应请求而提供文档分类服务的服务器应用。文档分类器220可以是多标签分类器,其提供与可用文体有关的一组属性,并且文体分类230可以表示多个、被排名的文档文体。
文档分类过程可以是模糊的,意即不需要确定文档的确切分类。可以在文体分类230中提供各种可能的确切分类的分数,或者在任何情况下,文体分类230将表示文档的至少一种概括的文体。例如,文档分类器220可以将文档识别为:有40%的置信度属于第一子文体,而有30%的置信度属于第二子文体,但是随后该文档也属于有70%的置信度的第一和第二子文体的父文体。选择父文体导致使用更保守(但是仍然正确)的规则以及得到相对于使用任一较低可能性子文体来说显著的改善。此外,候选文体的列表和相关联的分数可以由文档分类器230根据用于确定类别或项与未知文档的相关性的统计方法来生成,如在美国专利申请11/368,130中描述的那样。
一旦确定了文档210的文体分类230,则可以将文体分类230发送给策略选择器240,其相对于任一文档资源或文档分类器可以是本地的或远程的。生成的文体分类230可以包括多个项和对应的分数,每个分数对应一个项,表示该项关于文档210的置信度水平。例如,生成的文体分类230可以是XML(可扩展标记语言)文档,其包括标识文档210的信息、候选文体和相关联的分数。
文体分类230可以包括文档文体本体225中的推理链的子集235。这些推理链中的每一个可以列举文档分类器本体中从叶到根的整个链(如图2所示)。因此,文档分类器220完成的推理可以传送给策略选择器240,其可以决定是否以及如何使用该信息。例如,如果特定分类器结果推理链具有在控制策略本体中到处都找不到的叶节点(第一标签),则策略选择器将步进到源推理链的父标签,并使用该标签来搜索策略本体;该过程可以重复,直至找到匹配或达到推理链的开始且没有找到匹配,在这种情况下,可以应用与根节点相关联的任何规则。此外,尽管子集235中的推理链在图2中单独地示出,但是应当理解,这些推理链可以在一个结构中一起提供(例如,列举多面文档分类230的单个树)。
策略选择器240可以在文档安全和保留策略服务器(诸如可从加利福尼亚州圣何塞市的奥多比公司获得的LiveCycleTMPolicy Server软件)中实现。策略选择器240使用通过汇编一组用于不同文档分类的文档控制策略(例如,访问、安全和保留策略)来构造的第二知识结构(例如,策略树)。例如,策略选择器240可以具有包含分级知识结构的相关联的文档控制策略本体245,其中父节点继承从分级知识结构中的子节点导出的策略。
策略选择器240可以将文体分类230与文档控制策略本体245进行比较,以识别用于文档210的相关节点。这可以涉及检查与比推理链的子集235的各项的最低水平高的水平相关联的项。策略选择器240可以作出推荐,即使文体分类230没有完全对文档210进行分类,因为策略是由本体245中的父节点继承的。因此,适当的父节点和对应的适当策略可以通过在知识结构上向上追踪推理链直到满足规定的置信度水平(阈值)而找到。最差情况下,文档210落到根节点下面,在这种情况下,文档210是概括的文档并且选择根节点的策略。
由于策略选择器240可以找到两个知识结构之间的相关性,包括在叶节点以外的级别上,因此不需要在文档分类器220所使用的知识结构和策略选择器240所使用的知识结构之间的直接对应关系。实际上,文档分类器220和策略选择器240所使用的分类系统可以是由具有不同主观意识的不同人构建的不同系统。注意,企业常常将开发多个文档分类本体,而不是仅仅一个(例如,对于每个业务部门一个不同本体)。然而,文体分类230可以与文档控制策略本体245进行比较,以确定用于文档210的适当文档控制策略,因为可以向着根来追踪文档控制策略本体245中的关系链,直到找到具有策略的适当节点。基于该比较,策略选择器240可以作出策略推荐250,其可以是单个策略或多个策略(例如,可能应用到文档的策略的有排名的列表)。
图3是示出确定、推荐文档控制策略并将其应用到文档的示例性过程的流程图。为文档控制策略本体中的父节点确定310文档控制策略。这可以作为预处理操作而进行,其中可以利用从子节点导出的文档控制策略填充策略树的父节点,或者这可以在运行时主动地进行。
策略本体可以由第三方提供,并且包括叶节点处的策略信息,其可以沿分级向上传播,以便父节点处的策略至少如同父节点的子节点处的策略一样保守。策略向本体分级上部的这种传播可以理解为种子本体的代数DRM和保留策略汇编。增大的策略本体可以组织给定企业的所有文档文体,并关联用于本体内的每种文档文体的安全和保留策略。
当文档文体和它们的策略被安排到这种本体结构时,可以进行自动概括(称为推理),以确定哪些策略应当应用到所讨论的新的未知文档。例如,策略本体的一个分支可以将财务文档作为一种文档文体,而年度报告、季度报告和季度内更新可以都是财务文档的子文体,并被组织在财务文档之下。与每种子文体相关联的可以是应用到适当文档的专用策略。当策略本体被构建时,对于每种父文档文体(例如,财务文档),最概括的可应用策略(对于此文体)可以通过应用安全和保留策略代数自动地计算并记录,该安全和保留策略代数考虑所有直接子文体节点的策略。
下面是示例性的策略代数,其可以用于计算用于策略本体中给定父策略节点的最保守策略。下面的过程可以递归地执行,并且可以应用在策略本体中的任意级别,尽管通常该过程将从根节点开始在整个本体上执行。在此描述的策略代数被推广到应用于安全(许可)策略和保留策略。
安全策略可以规定被表达为表示操作是否被允许的布尔值的许可限制。例如,可限制操作可以包括(1)打印,(2)改变文档,(3)文档组合,(4)内容复制或提取,(5)为了访问进行内容提取,(6)注释,(7)填充表格,(8)签名以及(9)创建模板页。用于可限制操作的布尔许可集合可以表示为一个位矢量,其中一个这种矢量与每种文档文体相关联。为了计算对于父文体下面所有文档文体的父许可策略,可以组合子节点的许可位矢量(例如,按位与(bit-wise AND)),并且所得到的位矢量可以赋予给父级别。因此,如果分类器不能求解出对策略本体中子节点之一的文档文体分类,则识别最接近的父节点,并且父许可矢量得到应用到该文档的最保守的许可(对于在该父节点之下的本体的部分而言)。
用于文档的保留策略一般定义为时间点、持续时间和动作。为了规定一个策略,时间点通常是当前日期,用“C”来表示;持续时间是文档需要保留几年,用“N”来表示;而动作表示在该持续时间结束时必须采取的选择性程序(通常是什么都不做,或者销毁文档)。例如,文档保留策略可以使用由Information RequirementsClearinghouse(1990年3月)公开的Donald S.Skupsky的论文“Records Retention Procedures:Your Guide to Determine How Longto Keep Your Records and How to Safely Destroy Them!”中描述的编码系统的至少一些部分。
针对保留策略,Donald S.Skupsky开发的Skupsky方法提供了一种形式规范,该规范是关于如何组织和应用信息以确定不同记录的保留时段。Skupsky方法手动地将大量的预定义法则与大量记录相关的已定义的多个分组相关,以确定应用到这些记录的适当保留时段。该手动方法已经包含在诸如由克罗拉多州格林伍德村的InformationRequirements Clearinghouse提供的Retention Manager软件之类的产品中,以及诸如由加利福尼亚州桑尼维尔的Interwoven公司提供的Records Manager软件之类的内容管理系统中。同样,Skupsky方法可以在本说明书描述的主题的各种实现中使用。
概括地说,针对任意保留策略,可以定义三个符号来表示不同的时间点:C=当前年份;T=文档的终止时间点(到期、雇用等);以及S=文档被废弃的时间点。一些示例性的保留策略如下:
C+3:文档在当前年份后保留3年;
T+5:合同文档在终止后保留5年;
T+10:履历文档在雇用终止后保留10年;
S:文档保留直至废弃;
P:表示C+无限期(永久保留文档)。
给定该组变量,可以找到用于同类符号组的安全(最保守的)策略。特别地:max(C+1,C+2,C+7,C+4)=C+7。概括地说,可以根据max(Ci),其中i=1...M并且M=子C+Ni策略的数目,找到安全策略。同样,可以根据max(Ti),其中i=1...M并且M=子T+Ni策略的数目,找到安全策略。
当符号是不同种类,例如当计算max(C+2,T+4,C+3,T+5)时,情况比较复杂。在这种情况下,可以通过确定项之间的最大策略来使用保留策略代数简化该表达式,从而确定最保守策略。为了计算max(C+A,T+B)(其中A和B是不同的持续时间),意味着要回答:
C+A=T+B?
C=T+B-A?
C-T+A-B=0
出现三种情况:
<0 T+B是最大的
C-T+A-B:=0 C+A和T+B相等
>0 C+A是最大的
因此,可以从识别的单独情况形成概括的保留策略,这些单独情况基于与源策略相关联的变量。
该策略评估方法可以推广到具有新的、特定的保留含义的其他符号类型。该策略代数方法允许策略本体结构被预先计算计算出来,并用于进行关于策略的概括。因此,即使当容忍不完善的文档文体分类时也能获得正确的策略推荐。在策略汇编过程中,在上面描述的保留代数可以用于从策略规范的叶节点直至更概括的文档文体的递归工作,将最保守的策略分配给本体中顺序更高的节点。下面示出了该过程的输出的例子。
示例性保留策略本体
(通过汇编种子策略本体而生成)
关键字:
RP(x)=保留策略(x)
C=当前年份
T=在终止时间(合同、雇用等)
S=直至文档废弃前
P=永久
+N=事件+N年
例子:RP(C+4)=在当前年份后将文档保留4年
Adobe保留策略本体
″Adobe Document Retention Policy Ontology″RP(P)
Rule(max(P,max(T+20,C+6,T+1),C+10,C+49,C+8,T+1,T+10,max(max(C+02,T+1),
max([*],C+02,T+1)),S+1,max(T+20,C+05),max(T+01,C+03,T+04)))
{
″Finance″RP(P)
Rule(max(C+10,C+1,C+8,S+11,max(T+03,T+3,C+10),max(S+05,C+05,C+10),
max(C+10,T+10),P,max(T+05,C+10,T+10),T+10,C+03,C+01,T+03))
{
″Accounts receivable″RP(C+10)Rule(C+10)
{
″Billing″RP(C+10)Rule(C+10)
{
″Invoices(commercial)″RP(C+10)Rule(C+10)
{
″Adobe Invoice″RP(C+10)
}
″Purchase orders(from customers)″RP(C+10)
}
}
″Accounts payable″RP(C+10)Rule(C+10)
{
″Accts payable″RP(C+10)Rule(C+10)
{
″Vouchers″RP(C+10)
″Invoices″RP(C+10)Rule(C+10)
{
″Big Sky Invoice″RP(C+10)
}
}
}
″Financial planning analysis″RP(C+1)Rule(C +01)
{
″budgets″RP(C+01)
″financial performance″RP(C+01)
″Balance sheet reports″RP(C+01)
}
″General Ledger″RP(C+10)Rule(C+10)
{
″Corporate General Ledgers″RP(C+10)
″Operating Units″RP(C+10)
}
″Royalty records″RP(C+10)Rule(C+10)
{
″License files″RP(C+10)
″Royalty rcports″RP(C+10)
}
″Physical Assets″RP(C+8)Rule(C+08)
{
″Book Inventory″RP(C+08)
}
″Controllership″RP(S+11)Rule(S+11)
{
″Accounting Structure″RP(S+11)
″Financial Structure″RP(S+11)
″Cost Centers″RP(S+11)
}
″Crcdit″RP(max(T+03,T+3,C+10))Rule(max(T+03,T+3,C+10))
{
″Crcdit applications″RP(T+03)
″Credit decisions″RP(T+3)Rule(T+03)
{
″declined″RP(T+03)
″inactive″RP(T+03)
″incomplete″RP(T+03)
}
″Credit files″RP(C+10)
}
″Banking″RP(max(S+05,C+05,C+10))Rule(max(S+05,C+05,C+10))
{
″Bank Account Documentation″RP(S+05)
″Bank Analysis Statements″RP(C+05)
″Account Reconciliations″RP(C+10)
″Daily Cash Management Activity″RP(C+05)
}
″Investments″RP(max(C+10,T+10))Rule(max(C+10,T+10))
{
″Investment Reports″RP(C+10)
″Investment Summaries″RP(C+10)
″Investment Manager Policies″RP(T+10)
}
″Insurance″RP(P)Rule(max(P,T+05,T+07))
{
″Policies″RP(P)
″Data related to claims″RP(T+05)
″Other insurance no claim″RP(T+07)
}
″Foreign exchange″RP(max(T+05,C+10,T+10))Rule(max(T+05,C+10,T+10)
{
″Hedging reports″RP(T+05)
″Deal tickets″RP(C+10)
″FX gains and losses″RP(T+10)
}
″Debt″RP(P)Rule(max(T+08,P))
{
″Debt agreements″RP(T+08)
″Borrowing agreements″RP(T+08)
″Lease documentation″RP(T+08)
″Ground leases″RP(P)
″Building leases″RP(P)
″Equipment leases″RP(T+08)
}
″Adobe Equity″RP(T+10)Rule(T+10)
{
″Repurchase documentation″RP(T+10)
″ISDA agreements″RP(T+10)
″Adobe Gainloss data″RP(T+10)
}
″Equity(other companies)″RP(P)Rule(max(P,T+10))
{
″Stock certificates″RP(P)
″Equity Gainloss data″RP(T+10)
}
″Orders″RP(C+03)
″Earnings Releases″RP(P)Rule(max([P],P,C+05))
{
″Earnings Report″RP(P)
″Intra Quarter Business Update″RP(C+05)
}
″Conference call scripts″RP(C+01)
″BPC documents″RP(T+03)
}
Sales & Marketing″RP(max(T+20,C+6,T+1))Rule(max(T+20,C+6,T+1))
{
″Product Information″RP(T+20)Rule(T+20)
{
″Product Datasheet″RP(T+20)
″Master Engineering″RP(T+20)
″Technical programming records″RP(T+20)
}
″Field Sales History″RP(C+6)Rule(C+06)
{
″Market planning records″RP(C+06)
″Market planning reports″RP(C+06)
″Analysis records″RP(C+06)
″Analysis reports″RP(C+06)
}
″Supersales(GQL)Consolidated Sales Report(Legacy)″RP(C+6)Rule(C+06)
{
″Worldwide customer database″RP(C+06)
}
″Customer Data″RP(T+1)
″Product Plans″RP(T+1)
″Marketing Plans″RP(T+1)
″Market Research″RP(T+1)
″Marketing Team Promotions″RP(T+1)
″Marketing Team Ads″RP(T+1)
}
″Manufacturing Logistics″RP(C+10)Rule(max(C+10,C+2))
{
″SAP Manufacturing records″RP(C+10)Rule(C+10)
{
″Production Purchase Orders″RP(C+10)
″receiving records″RP(C+10)
″shipping referene numbers″RP(C+10)
}
″Outsourced Manufacturing operations″RP(C+2)Rule(C+2)
{
″Bills of Lading″RP(C+2)Rule(C+02)
{
″Delivery reports″RP(C+02)
″Receiving reports″RP(C+02)
″shipping instructions″RP(C+02)
″packing slips″RP(C+02)
}
}
}
″Facilities″RP(C+49)Rule(max(C+49,C+5))
{
″Environmental″RP(C+49)Rule(C+49)
{
″Hazardous waste controls″RP(C+49)
″Hazardous waste compliance″RP(C+49)
″Environmental controls″RP(C+49)
″Environmental compliance″RP(C+49)
}
″First Aid Records″RP(C+5)Rule(C+05)
{
″Accident reports″RP(C+05)
}
}
″Electronic Commerce″RP(C+8)Rule(C+8)
{
″Web order streams″RP(C+8)Rule(C+08)
{
″Customer transaction history″RP(C+08)
}
}
″IS″RP(T+1)Rule(max(T+01,max(C+02,T+01)))
{
″Project Plans″RP(T+01)
″Security″RP(max(C+02,T+01))Rule(max(C+02,T+01))
{
″Records of Electronic Access″RP(C+02)
″Incident Reports″RP(T+01)
}
}
″Human Resources″RP(P)
Rule(max(T+4,T+1,T+2,max(T+5,T+10,C+03),max(T+2,C+6),C+04,max(C+07,T
+06),C+07,C+7,C+5,C+10,P))
{
″Regular employee files″RP(T+4)Rule(max(T+02,T+04))
{
″Offer Letters″RP(T+02)
″Active″RP(T+04)
″Terminated″RP(T+04)
″Retired″RP(T+04)
″Deceased″RP(T+04)
}
″Temp/Agency Employment″RP(T+1)Rule(T+01)
{
″Personnel files″RP(T+01)
″Timecards″RP(T+01)
}
″Independent Contractor Files″RP(T+4)Rule(T+04)
{
″Vendor Form″RP(T+04)
}
″Resume Tracking″RP(T+2)Rule(max(T+02,T+1))
{
″Applicant Files(hired)″RP(T+02)
″Applicant Files(not-hired)″RP(T+02)
″Applicant Resume″RP(T+02)
″Ads/Public Notices″RP(T+1)Rule(T+01)
{
″Job openings″RP(T+01)
″Promotions″RP(T+01)
″Training″RP(T+01)
}
}
″Benefits″RP(max(T+5,T+10,C+03))Rule(max(T+5,T+10,C+03))
{
″Benefit Plans″RP(T+5)Rule(T+05)
{
″Publications″RP(T+05)
″Basic Plans″RP(T+05)
}
″Medical Disability Income Plan″RP(T+10)
″Medical Plan Exceptions″RP(C+03)
}
″Employee File Information″RP(max(T+2,C+6))Rule(max(T+2,C+6))
{
″Performance Review Data″RP(T+2)Rule(T+02)
{
″Focal goals″RP(T+02)
″Focal reviews″RP(T+02)
″Quarterly goals″RP(T+02)
″Quarterly reviews″RP(T+02)
″Final reviews″RP(T+02)
}
″Other Employee File Information″RP(C+6)Rule(C+06)
{
″Performance planning″RP(C+06)
″Performance counseling″RP(C+06)
}
}
″Payroll deduction authorizations″RP(C+04)
″Equity plan″RP(max(C+07,T+06))Rule(max(C+07,T+06))
{
″Employee Stock Purchase Plan″RP(C+07)
″Exmployee Stock Purchase Documentation″RP(C+07)
″Stock Option Plans″RP(C+07)
″Stock Option Agreements″RP(C+07)
″Other Equitity Plans″RP(C+07)
″Other Equitity Agreements″RP(C+07)
″Canceled Stock Certificates″RP(T+06)
}
″401(k)records″RP(C+07)
″ERISA documents″RP(C+7)Rule(C+07)
{
″all ERISA plan documents″RP(C+07)
″agreements″RP(C+07)
″elections″RP(C+07)
″backup information″RP(C+07)
}
″Workers Compensation″RP(C+5)Rule(C+05)
{
″Reports″RP(C+05)
}
″Payroll information″RP(C+10)Rule(C+10)
{
″Payroll records″RP(C+10)
″Wage records″RP(C+10)
″Timecards″RP(C+10)
}
″EEO-1 Reports″RP(P)
}
″Tax″RP(T+10)Rule(T+10)
{
″Tax Returns″RP(T+10)Rule(T+10)
{
″Supporting documentation″RP(T+10)
}
″Tax Records″RP(T+10)Rule(T+10)
{
″W-2″RP(T+10)
″W-4″RP(T+10)
″Pay rates″RP(T+10)
″Deductions″RP(T+10)
″Timecards″RP(T+10)
}
}
″Support″RP(max(max(C+02,T+1),max([*],C+02,T+1)))
Rule(max(max(C+02,T+1),max([*],C+02,T+1)))
{
″Technical Support″RP(max(C+02,T+1))Rule(max(C+02,T+1))
{
″Customer contact information″RP(max(C+02,T+1))Rule(max(C+02,T+1))
{
″Wizard″RP(C+02)
″Siebel″RP(C+02)
″Vantive″RP(C+02)
″ATILA/Lotus DB″RP(T+1)Rule(T+01)
{
″FAQ Answers″RP(T+01)
}
}
}
″Customer Support″RP(max([*],C+02,T+1))Rule(max([*],C+02,T+1))
{
″Customer contact information″RP(C+02)
″Customer registration information″RP(T+1)Rule(T+01)
{
″Worldwide customer database″RP(T+01)
″Customer support databases″RP(T+01)
}
″Sales and Marketing programs″RP(T+1)Rule(T+01)
{
″Pricing information″RP(T+01)
″Promotional programs″RP(T+01)
}
}
}
″Help Desk Engineering″RP(S+1)Rule(S+01)
{
″Problem Management System″RP(S+01)
}
″Engineering″RP(max(T+20,C+05))Rule(max(T+20,C+05))
{
″Engineering Document″RP(T+20)
″Product source control libraries″RP(T+20)Rule(T+20)
{
″Visual SourceSafe″RP(T+20)Rule(T+20)
{
″SS Source code″RP(T+20)
″SS Object code″RP(T+20)
}
″ClearCase″RP(T+20)Rule(T+20)
{
″CC Source code″RP(T+20)
″CC Object code″RP(T+20)
}
″Perforce″RP(T+20)Rule(T+20)
{
″PF Source code″RP(T+20)
″PF Object code″RP(T+20)
}
}
″Product builds″RP(T+20)
″Product Life Cycle″RP(C+05)
}
″Purchasing″RP(max(T+01,C+03,T+04))Rule(max(T+01,C+03,T+04))
{
″RFPs″RP(T+01)
″Requisitions″RP(C+03)
″Purchase Orders″RP(T+04)
}
″Legal″RP(P)Rule(max(T+20,C+04,T+8,P,T+10,T+5))
{
″Litigation/Claims″RP(T+20)Rule(max(T+10,T+03,T+20))
{
″Claims against Adobe″RP(T+10)
″Claims by Adobe″RP(T+03)
″Major Litigation″RP(T+20)
}
″Threatened claims″RP(C+04)
″Partnerships/JVs″RP(T+8)Rule(T+08)
{
″Joint Ventures″RP(T+08)
″Partnership Agreements″RP(T+08)
}
″Corporate governance documents″RP(P)Rule(P)
{
″Minutes″RP(P)
″Proxies″RP(P)
″Annual Reports″RP(P)Rule(P)
{
″Annual Report″RP(P)
}
″SEC/NASDAQ filings″RP(P)
″SEC/NASDAQ correspondance″RP(P)
″Stock books″RP(P)
}
″Intellectual Property Registrations″RP(T+10)Rule(T+10)
{
″Patent″RP(T+10)
″Copyright″RP(T+10)
″Trademark Registration″RP(T+10)Rule(T+10)
{
″Official Correspondence″RP(T+10)
″Official Documentation″RP(T+10)
}
}
″Other″RP(T+5)Rule(T+5)
{
″Project files″RP(T+5)Rule(T+05)
{
″License agreements″RP(T+05)
″Contracts″RP(T+05)
″Competitor information″RP(T+05)
″Discovery searches″RP(T+05)
}
}
}
}
本例中种子本体包括叶节点处的DRM和保留规则。使用上述方法通过将成组节点与一个公共父节点一起考虑,来确定分配给该父节点的代数最大DRM和保留规则,在该种子本体上建立代数汇编过程。该过程递归地重复,直到达到根节点,并且在每个节点处的规则可以使用上述的功能性符号(例如,以XML形式)来表示。
在某些情况下,为父节点汇编的策略可能彼此冲突。在某些企业中,存在这样的硬性规则:给定类型的文档在设定的时间量后必须销毁。这种类型的规则会与规定在当前年份加十年之前保留文档的规则冲突。在这种情况下,可以仅仅将存在两种冲突的规则的事实记录在策略本体中,或记录在其他位置,或记录在策略本体和其他位置的组合中。例如,遇到冲突规则的事实以及相关的规则可以以符号形式记录在日志或查账索引中,以便用户可以了解遇到了冲突情况。同样,如果由于缺少信息而不能评估策略,(例如,如果策略规定在合同终止后将文档保留十年,但是合同终止日期未知),则已知信息可以记录在策略本体中(例如,“RP(T+10)”)。由于记录和传播这种信息,一旦接收到缺少的信息或解决了规则冲突,就可以完全地评估策略。注意,系统可以被设置为当可能的时候自动解决冲突规则。
重新参考图3,确定320文档的文体分类。可以使用符号或机器训练的文档分类器来自动对新的未知文档进行分类。该分类的输出可以是预定义的类别结构,其可以包括文档分类器所使用的知识结构的多个推理链。预定义的类别结构代表文体分类,因为其可以提供分类器的知识结构的分级上下文中的文档项和相应分数,这些可以辅助对策略本体的比较。实际上,文档文体分类代表文档的一组可能文体以及这些文体的相关联的置信度水平。
应当注意,这种文体分类可能是不精确的。例如,分类器可能仅仅能够确定文档的概括类型(例如,财务文档),而不能确定具体的子类型(例如,年度报告)。进一步地,分类器可能确定尚未分配有明确的安全或保留策略的文档文体。
通过将文体分类与文档控制策略本体进行比较在文档控制策略本体中识别330一个或多个相关节点。该策略本体可以用于定位应当应用到文档的所有适当策略。当文档文体(由文档分类器计算得到的)直接与策略本体中的文档文体或子文体匹配时,如果策略已与该文档文体相关联,则可以获得和应用与该匹配的文档文体相关联的一个或多个策略。
如果分类器不能作出充分精确的分类,并表明了更概括的文档文体(即,策略本体中的非叶节点),则可以获得并应用用于该更概括文档文体的综合策略。由于可以根据保守的策略约减代数将子文档文体策略综合到父文体中,可以为每个文档提供正确的策略(虽然可能是一个比非常需要的策略更保守的策略)。
此外,如果分类器识别了一种不具有直接或明确策略的文档文体,则可以使用策略本体来对该文档文体进行概括。该概括过程可以通过追踪策略本体中子文体与父文体之间的链路,并得到每个相继的父文档文体直到找到具有相关联的策略的文体而进行。通过追踪这些链路形成的父文体的列表称为推理链,并且本系统和方法可以使用这些推理链来对文档文体进行连续的概括,直到找到策略。
图4示出了与示例性策略本体430进行比较的两个示例性分类器推理链410和420。推理链410和420示意性地表示在图4中。策略本体430表示在可用于查看和浏览策略本体的基于Web浏览器的图形用户界面(GUI)中。应当理解,也可以使用相同的GUI或类似的GUI来查看和浏览由文档文体分类器使用的分类本体。
文档文体分类器对文档进行分类并返回推理链410。该链中的每个标签可以用于(从底部开始依次)寻找策略本体430中的匹配标签。因此,使用节点412中的第一标签“技术转让”搜索策略本体430。在策略本体430的节点432中找到匹配标签“技术转让”。该过程于是可以终止,并且可以使用与节点432相关联的保留和DRM策略信息(未示出)来推荐用于该文档的策略。
在第二个例子中,文档分类器返回推理链420。使用节点422中的第一标签“GUI易用性”来搜索策略本体430,并且没有找到任何匹配。该搜索在链中继续到节点424中的标签“用户体验”,用该标签来搜索策略本体430。在节点434中找到匹配标签“用户体验”,并且返回与节点434相关联的保留和DRM策略信息436。
在各种实现中可以以不同的方式进行在策略本体内的对文档文体进行连续概括的推理。当获得从文档分类器本体到策略本体中某个入口点节点的匹配时,推理过程使得能够找到更保守的(且适当的)规则。从子节点向上一级到父节点的行进是一个推理(将该子节点概括为更概括的文体)。行进到下一个父节点代表另一个推理,并且在此节点处找到的策略具有在该祖父节点的所有子节点中最保守的规则。因此,最初的分类可能在某种程度上是不正确的,但是随着沿策略本体中的推理链向上移动,将找到更保守的策略,其也更有可能是正确的。
概括地说,如果最低级别的分类是不可信的,则可以提起一个推理。例如,如果文档分类器表明文档是有30%的置信度的年度报告,则所有其他识别出的文体具有更低的置信度,而30%没有达到预定义的置信度阈值(例如50%),则该方法可以在策略本体中向上一级找到更概括的策略。在决定一个策略之前要提起的推理的数目可以是固定的(例如,仅向上一级),或者是基于所提供的文体分类中的分数的。在典型的使用情形中,分类器返回一个推理链,该链中的每个标签都用于搜索策略本体,直到找到一个匹配;如果没有任何匹配,则过程结束,使用策略本体中的根节点(如果在根级分配了策略)。
基于相关节点推荐340至少一个文档控制策略以管理对文档的访问。可以使用与候选文体(由文档分类器提供的)相关联的分数来确定所识别的各种策略的可能性。推荐一个或多个所识别的策略可以包括输出多个推荐的文档控制策略、相关联的分数和来自文档控制策略本体(例如,以XML文档的形式)的相应推理链。这些推荐的策略、分数和推理链随后可以由用户在选择要应用的最佳策略(或者还由另一个机器处理)的过程中查看。备选地,可以选择和推荐最佳可应用策略。在任何一种情况下,可以识别最佳可应用策略并将其用作要应用的默认策略。然后,推荐的文档控制策略可以应用350到文档。例如,可以在没有人工干预的情况下,将来自多个推荐的文档控制策略中的最高排名的文档控制策略自动应用到文档。
在本说明书中描述的主题的实施例和功能性操作可以以数字电子电路的形式、或者以包括在本说明书中公开的结构及其等效结构的计算机软件、固件或硬件的形式、或者以它们中一个或多个的组合的形式来实现。在本说明书中描述的主题的实施例可以作为一个或多个计算机程序产品,即编码在计算机可读介质上、用于由数据处理装置执行或控制数据处理装置的计算机程序指令的一个或多个模块来实现。该计算机可读介质可以是机器可读存储设备、机器可读存储衬底、存储器设备、实现机器可读传播信号的物质构成、或者它们中一个或多个的组合。术语“数据处理设备”包括用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机或多个处理器或计算机。该装置除硬件外还可以包括创建用于所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或者它们中一个或多个的组合的代码。传播的信号是人工生成的信号,例如机器生成的电、光、电磁信号,其生成以编码要传送给适当的接收装置的信息。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言来编写,包括编译或解释语言,并且其可以以任何形式来部署,包括作为独立工作的程序或者作为适于在计算环境中使用的模块、部件、子例程或其他单元来部署。计算机程序不必对应于文件系统中的文件。程序可以存储在具有其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如存储代码的一个或多个模块、子程序或代码部分的文件)中。计算机程序可以部署以在一个计算机上或者在位于同一地点或分布在多个地点并由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以通过执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过操作输入数据和生成输出来执行功能。过程和逻辑流也可以由专用逻辑电路、例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且所述装置也可以实现为专用逻辑电路、例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的处理器例如包括专用和通用微处理器、以及任意种类的数字计算机中的任意一个或多个处理器。通常,处理器从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或可操作地连接到这些设备以从其接收数据或向其发送数据,或者兼用两种方式。然而,计算机不需要一定具有这种设备。此外,计算机可以包含在另一设备上,例如,移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收机,仅举几例。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括示例性半导体存储器设备,例如,EPROM、EEPROM以及闪存设备;磁盘,例如内部硬盘或可移除磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以用专用逻辑电路来补充,或结合在专用逻辑电路中。
为了提供与用户的交互,在本说明书中描述的主题的实施例可以在如下的计算机上实现,该计算机具有显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器用于向用户显示信息以及具有键盘和指针设备例如鼠标或轨迹球使用户可以向计算机提供输入。其他类型的鼠标也可以用于提供与用户的交互,例如,提供给用户的反馈可以是任意形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以以任意形式接收,包括声音、语音或触觉输入。
在本说明书中描述的主题的实施例可以在如下计算系统中实现,该计算系统包括后端组件,例如数据处理器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如客户端计算机,其具有图形用户接口或Web浏览器,通过它们用户可以与在本说明书中描述的主题的实现进行交互,或者计算系统可以包括一个或多个这种后端、中间件或前端组件的任意组合。系统的组件可以通过任意形式的介质或数字数据通信例如通信网络来互连。通信网络的例子包括局域网(LAN)和广域网(WAN),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。出现客户端和服务器的关系是由于运行在相应计算机上且彼此具有客户端-服务器关系的计算机出现。
尽管本说明书包含很多细节,但是这些不应被视为对本发明或请求保护的范围的限制,而是对特定于本发明的具体实施例的特征的描述。在多个单独实施例的上下文中描述的某些特征也可以在一个实施例中以组合形式实现。相反,在一个实施例中描述的各种特征也可以在多个实施例中单独实现或以任意适当的子组合的形式实现。此外,尽管在上文描述为或者甚至开始请求保护时是在某种组合中起作用的,但是来自该请求保护的组合的一个或多个特征在某些情况下也可以排除在该组合之外,并且可以将请求保护的组合集中为子组合或子组合的变型。
类似地,尽管以特定次序在附图中描述了操作,这不应当理解为需要以示出的次序或以顺序的次序执行这些操作,或者需要执行所有示出的操作才能获得期望结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统组件的分离不应当理解为在所有实施例中都需要这种分离,并且应当理解所描述的程序组件和系统可以一起集成在单个软件产品中或打包到多个软件产品中。
因此,已经描述了本发明的特定实施例。其他实施例也在后文的权利要求书的范围内。例如,权利要求中引用的动作可以以不同次序来执行并且仍然能取得期望的结果。此外,尽管单独的本体被描述用于在文档分类和策略选择中使用,应当理解,这些本体可以组合为一个单个分级知识结构,诸如混合或多面本体。
此外,其他实施例包括与各种企业系统的结合。例如,描述的系统和技术可以与电子邮件系统一起使用以帮助防止知识产权泄漏,即在公司内部网内部的文档通过非授权方式的电子邮件附件通往公司外部。在这些实施例中,可以对网络上分组中的头部进行采样以确定文档是何时被传送的。可以对文档进行组合或分类以随后确定分类推理链。可以使用概括的策略本体来确定文档是否应当利用DRM和/或保留策略来保护,以及随后使用诸如PolicyServer软件的机制来应用策略,以便即使文档离开了企业内部网,仍可应用正确的DRM或保留策略(例如,在DRM的情况下,文档被加密)。
在这些思想的一个变型中,还可以自动对所有文档进行分类,并且可以以安全的方式将分类推理链保存为文档内的元数据。诸如电子邮件系统之类的服务随后可以检查这种分类推理链,并使用上述的算法来找到适当的保留和DRM策略。随后在文档被粘贴到外发的电子邮件之前,通过Policy Server软件将该策略应用到文档。
仍有更多的实施例在后面的权利要求书的范围内。
Claims (24)
1.一种方法,包括:
确定文档的文体分类,所述文体分类包括多个项和相应的分数,每个分数对应一个项,表示该项关于该文档的置信度水平;
通过将所述文体分类与文档控制策略本体进行比较,在文档控制策略本体中识别相关节点;
至少部分地基于至少一个所述分数评估所述相关节点的可用性的置信度水平;
如果所评估的所述相关节点的可用性的置信度水平低于阈值,则在文档控制策略本体中选择所述相关节点的父节点以代表所述相关节点;以及
基于在文档控制策略本体中所识别的或所选择的相关节点,推荐至少一个文档控制策略以管理对所述文档的访问。
2.根据权利要求1所述的方法,其中所述确定包括:使用包括分级知识结构的文档文体本体对所述文档进行分类,所述分级知识结构包含项和概念的词汇表、以及用于文档文体分类的表示词汇表项和概念之间的相互关系的推理链,所述文体分类包括所述推理链的子集,以及所述识别包括检查与比所述推理链的子集的各项的最低水平高的水平相关联的项。
3.根据权利要求1所述的方法,还包括:基于与所述文档控制策略本体中的父节点的子节点相关联的多个文档控制策略的组合,导出用于所述文档控制策略本体中的所述父节点的文档控制策略,并且将导出的文档控制策略与所述文档控制策略本体中的所述父节点相关联。
4.根据权利要求3所述的方法,其中所述导出的文档控制策略包括导出的安全策略和导出的保留策略,并且导出所述文档控制策略包括:
组合与所述父节点的子节点相关联的安全策略的布尔值,以形成所述导出的安全策略;以及
组合所识别的单独情况以形成所述导出的保留策略,所述所识别的单独情况是基于与子节点相关联的多个文档控制策略的关联变量。
5.根据权利要求3所述的方法,其中所述导出包括:从与所述文档控制策略本体中的子节点相关联的多个文档控制策略中导出集合了策略组成的文档控制策略,默认为更保守的策略组成。
6.根据权利要求3所述的方法,其中所述导出包括:递归地导出用于所述文档控制策略本体中的父节点的文档控制策略,直至根节点,并且其中所述导出和所述关联在部署所述文档控制策略本体之前执行。
7.根据权利要求1所述的方法,其中所述推荐包括:输出多个推荐的文档控制策略以及对应的来自所述文档控制策略本体的推理链。
8.根据权利要求1所述的方法,还包括:将来自多个推荐的文档控制策略的最高排名的文档控制策略自动应用于所述文档。
9.一种系统,包括:
用户接口设备;
文档控制组件,包括包含文档控制策略的分级知识结构,所述文档控制策略包含根据与父节点的子节点相关联的规则的代数最大值而由所述父节点继承的至少一个文档控制策略;以及
一个或多个计算机,其可操作为与所述用户接口设备和所述文档控制组件进行交互,以确定文档的文体分类,将所述文体分类与所述分级知识结构进行比较,以在包括所述父节点的多个节点中识别一个相关节点,并且基于在所述分级知识结构中识别的相关节点推荐至少一个文档控制策略来管理对所述文档的访问。
10.根据权利要求9所述的系统,其中所述一个或多个计算机包括可操作为通过数据通信网络与所述用户接口设备进行交互的服务器,并且所述用户接口设备可操作为客户端与所述服务器进行交互。
11.根据权利要求9所述的系统,其中所述一个或多个计算机包括一个个人计算机,并且所述个人计算机包括所述用户接口设备。
12.根据权利要求9所述的系统,还包括:
用于文档文体分类的文档文体本体,所述文档文体本体包括分级知识结构,所述分级知识结构包含项和概念的词汇表,以及表示词汇表项和概念之间的相互关系的推理链;
应用程序接口(API),配置为向所述文档控制组件提供对所述文档文体本体中的推理链的选定元素的访问;
其中所述文档控制组件包括策略本体组件,所述策略本体组件配置为推荐所述至少一个文档控制策略,并且其包括一个接口,策略管理组件通过该接口访问要应用到所述文档的至少一个文档控制策略。
13.根据权利要求12所述的系统,其中所述策略管理组件包括策略服务器。
14.根据权利要求9所述的系统,所述一个或多个计算机还可操作为在所述文档控制组件中,基于对与所述分级知识结构中的父节点的子节点相关联的多个文档控制策略的组合,导出用于所述分级知识结构中的父节点的文档控制策略;以及可操作为将所导出的文档控制策略与所述分级知识结构中的所述父节点相关联。
15.根据权利要求9所述的系统,所述一个或多个计算机还可操作为输出多个所推荐的文档控制策略以及对应的来自所述文档控制组件中的分级知识结构的推理链。
16.根据权利要求9所述的系统,所述一个或多个计算机还可操作为将多个所推荐的文档控制策略中的最高排名的文档控制策略自动应用到所述文档。
17.一种计算机程序产品,编码于计算机可读介质上,可操作为使得数据处理装置执行下述操作:
接收文档的文体分类,所述文体分类包括多个项和相应的分数,每个分数对应一个项,表示该项关于所述文档的置信度水平;
通过将所述文体分类与文档控制策略本体进行比较,在文档控制策略本体中识别相关节点;
至少部分地基于至少一个所述分数评估所述相关节点的可用性的置信度水平;
如果所评估的所述相关节点的可用性的置信度水平低于阈值,则在所述文档控制策略本体中选择所述相关节点的父节点代表所述相关节点;以及
基于在所述文档控制策略本体中所识别的或所选择的相关节点,推荐至少一个文档控制策略以管理对所述文档的访问。
18.根据权利要求17所述的计算机程序产品,其中所述确定包括:使用包括分级知识结构的文档文体本体对所述文档进行分类,所述分级知识结构包含项和概念的词汇表、以及用于文档文体分类的表示词汇表项和概念之间的相互关系的推理链;所述文体分类包括所述推理链的子集;以及所述识别包括检查与高于所述推理链的子集的各项的最低水平高的水平相关联的项。
19.根据权利要求17所述的计算机程序产品,所述操作还包括:基于与所述文档控制策略本体中的父节点的子节点相关联的多个文档控制策略的组合,导出用于所述文档控制策略本体中的所述父节点的文档控制策略;以及将所导出的文档控制策略与所述文档控制策略本体中的所述父节点相关联。
20.根据权利要求19所述的计算机程序产品,其中所述导出的文档控制策略包括导出的安全策略和导出的保留策略,并且导出所述文档控制策略包括:
组合与所述父节点的子节点相关联的安全策略的布尔值,以形成所述导出的安全策略;以及
组合所识别的单独情况以形成所述导出的保留策略,所述所识别的单独情况基于与子节点相关联的多个文档控制策略的关联变量。
21.根据权利要求19所述的计算机程序产品,其中所述导出包括:从与所述文档控制策略本体中的子节点相关联的多个文档控制策略中导出集合了策略组成的文档控制策略,默认为更保守的策略组成。
22.根据权利要求19所述的计算机程序产品,其中所述导出包括:递归地导出用于所述文档控制策略本体中的父节点的文档控制策略,直至根节点;并且其中所述导出和所述关联在部署所述文档控制策略本体之前执行。
23.根据权利要求17所述的计算机程序产品,其中所述推荐包括:输出多个推荐的文档控制策略以及对应的来自所述文档控制策略本体的推理链。
24.根据权利要求17所述的计算机程序产品,所述操作还包括将来自多个推荐的文档控制策略的最高排名的文档控制策略自动应用于所述文档。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/470,533 US7610315B2 (en) | 2006-09-06 | 2006-09-06 | System and method of determining and recommending a document control policy for a document |
US11/470,533 | 2006-09-06 | ||
PCT/US2007/077652 WO2008030884A2 (en) | 2006-09-06 | 2007-09-05 | System and method of determining and recommending a document control policy for a document |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101529373A true CN101529373A (zh) | 2009-09-09 |
CN101529373B CN101529373B (zh) | 2012-06-06 |
Family
ID=39153211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800391075A Expired - Fee Related CN101529373B (zh) | 2006-09-06 | 2007-09-05 | 确定和推荐用于文档的文档控制策略的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7610315B2 (zh) |
CN (1) | CN101529373B (zh) |
GB (1) | GB2455665A (zh) |
WO (1) | WO2008030884A2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546729A (zh) * | 2010-12-28 | 2012-07-04 | 北大方正集团有限公司 | 一种通信节点配置部署的方法及装置 |
CN106776673A (zh) * | 2015-11-20 | 2017-05-31 | 奥多比公司 | 多媒体文档概括 |
CN107430744A (zh) * | 2014-07-26 | 2017-12-01 | A·沙班 | 用于会计系统和过程的经修改的现金分类账基础 |
CN108369579A (zh) * | 2016-01-20 | 2018-08-03 | 微软技术许可有限责任公司 | 向文档部分上绘涂内容分类 |
CN112507095A (zh) * | 2020-12-15 | 2021-03-16 | 平安国际智慧城市科技股份有限公司 | 基于弱监督学习的信息识别方法及相关设备 |
CN113139049A (zh) * | 2021-04-21 | 2021-07-20 | 北京明略昭辉科技有限公司 | 关联文档推荐方法、装置、计算机设备和存储介质 |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110188759A1 (en) * | 2003-06-26 | 2011-08-04 | Irina Filimonova | Method and System of Pre-Analysis and Automated Classification of Documents |
RU2003108433A (ru) * | 2003-03-28 | 2004-09-27 | Аби Софтвер Лтд. (Cy) | Способ предварительной обработки изображения машиночитаемой формы |
RU2635259C1 (ru) * | 2016-06-22 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения типа цифрового документа |
US7657151B2 (en) | 2005-01-05 | 2010-02-02 | The Directv Group, Inc. | Method and system for displaying a series of recordable events |
US7290211B2 (en) * | 2005-01-05 | 2007-10-30 | Digital Networks North America, Inc. | Method and system for reconfiguring a selection system based on layers of categories descriptive of recordable events |
US8356053B2 (en) | 2005-10-20 | 2013-01-15 | Oracle International Corporation | Managing relationships between resources stored within a repository |
US20080059543A1 (en) * | 2006-08-31 | 2008-03-06 | Andreas Engel | ESA enablement of records management for application integration |
US9183321B2 (en) * | 2006-10-16 | 2015-11-10 | Oracle International Corporation | Managing compound XML documents in a repository |
US20080162109A1 (en) * | 2006-12-28 | 2008-07-03 | Motorola, Inc. | Creating and managing a policy continuum |
US8627403B1 (en) * | 2007-07-31 | 2014-01-07 | Hewlett-Packard Development Company, L.P. | Policy applicability determination |
US7913172B2 (en) * | 2007-09-01 | 2011-03-22 | International Business Machines Corporation | Fine-grained, label-based, XML access control model |
US8799982B2 (en) * | 2008-01-30 | 2014-08-05 | International Business Machines Corporation | System and methods for efficiently classifying and selecting among security policy alternatives for outbound network communications |
US8161522B1 (en) * | 2008-06-09 | 2012-04-17 | Symantec Corporation | Method and apparatus for using expiration information to improve confidential data leakage prevention |
US7966348B2 (en) * | 2008-06-27 | 2011-06-21 | International Business Machines Corporation | Dynamic ontology-driven template selection |
US8561100B2 (en) * | 2008-07-25 | 2013-10-15 | International Business Machines Corporation | Using xpath and ontology engine in authorization control of assets and resources |
US8713007B1 (en) | 2009-03-13 | 2014-04-29 | Google Inc. | Classifying documents using multiple classifiers |
US8856081B1 (en) * | 2009-06-30 | 2014-10-07 | Emc Corporation | Single retention policy |
US9258175B1 (en) | 2010-05-28 | 2016-02-09 | The Directv Group, Inc. | Method and system for sharing playlists for content stored within a network |
US20130036222A1 (en) * | 2010-06-14 | 2013-02-07 | Compuware Corporation | Inheritable dimensions in a service model |
CN101944099B (zh) * | 2010-06-24 | 2012-05-30 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
US9710760B2 (en) | 2010-06-29 | 2017-07-18 | International Business Machines Corporation | Multi-facet classification scheme for cataloging of information artifacts |
KR101064201B1 (ko) | 2010-07-27 | 2011-09-14 | 주식회사 파수닷컴 | 웹 데이터의 권한 관리 장치, 웹 데이터의 권한 관리 방법을 컴퓨터에서 실행시키기 위한 기록매체, 그리고 권한 관리 정보 제공 장치 및 방법 |
KR101157073B1 (ko) | 2010-12-10 | 2012-06-21 | 숭실대학교산학협력단 | 근전도 센서와 자이로 센서를 이용한 지화 인식 방법 및 장치 |
GB2506879A (en) * | 2012-10-10 | 2014-04-16 | Apperception Services Ltd | Document classification using latent semantic analysis |
CN102945266A (zh) * | 2012-10-25 | 2013-02-27 | 苏州两江科技有限公司 | 基于本体查询系统进行多领域产品推荐的方法 |
US9275206B2 (en) * | 2013-01-23 | 2016-03-01 | International Business Machines Corporation | Managing sensitive information |
US10235681B2 (en) | 2013-10-15 | 2019-03-19 | Adobe Inc. | Text extraction module for contextual analysis engine |
US10430806B2 (en) | 2013-10-15 | 2019-10-01 | Adobe Inc. | Input/output interface for contextual analysis engine |
US9990422B2 (en) | 2013-10-15 | 2018-06-05 | Adobe Systems Incorporated | Contextual analysis engine |
CN104679452B (zh) * | 2013-12-02 | 2018-04-20 | 航天信息股份有限公司 | 一种税控系统中发票打印数据绑定方法 |
US9473796B1 (en) * | 2013-12-31 | 2016-10-18 | Google, Inc. | Automated application of manually reviewed videos using matching |
US20150199535A1 (en) * | 2014-01-13 | 2015-07-16 | Oracle International Corporation | Organization-based policies |
US10127230B2 (en) * | 2015-05-01 | 2018-11-13 | Microsoft Technology Licensing, Llc | Dynamic content suggestion in sparse traffic environment |
US10387669B1 (en) * | 2015-09-17 | 2019-08-20 | Nextlabs, Inc. | Protecting documents with centralized and discretionary policies |
US10783262B2 (en) * | 2017-02-03 | 2020-09-22 | Adobe Inc. | Tagging documents with security policies |
CN107103065B (zh) * | 2017-04-17 | 2021-07-02 | 北京五八信息技术有限公司 | 基于用户行为的信息推荐方法及装置 |
US10915695B2 (en) * | 2017-11-06 | 2021-02-09 | Microsoft Technology Licensing, Llc | Electronic document content augmentation |
WO2019232317A1 (en) * | 2018-05-31 | 2019-12-05 | Georgetown University | Generating hypotheses and recognizing events in data sets |
CN110968776B (zh) * | 2018-09-30 | 2023-05-23 | 北京国双科技有限公司 | 政策知识的推荐方法、装置存储介质及处理器 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU4495597A (en) * | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US5778363A (en) * | 1996-12-30 | 1998-07-07 | Intel Corporation | Method for measuring thresholded relevance of a document to a specified topic |
US6466932B1 (en) * | 1998-08-14 | 2002-10-15 | Microsoft Corporation | System and method for implementing group policy |
US6473851B1 (en) * | 1999-03-11 | 2002-10-29 | Mark E Plutowski | System for combining plurality of input control policies to provide a compositional output control policy |
CA2307404A1 (en) * | 2000-05-02 | 2001-11-02 | Provenance Systems Inc. | Computer readable electronic records automated classification system |
US20030130993A1 (en) * | 2001-08-08 | 2003-07-10 | Quiver, Inc. | Document categorization engine |
US7024408B2 (en) * | 2002-07-03 | 2006-04-04 | Word Data Corp. | Text-classification code, system and method |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US8775468B2 (en) * | 2003-08-29 | 2014-07-08 | International Business Machines Corporation | Method and system for providing path-level access control for structured documents stored in a database |
US7277885B2 (en) * | 2004-02-18 | 2007-10-02 | Microsoft Corporation | Systems and methods for filter processing using hierarchical data and data structures |
JP4793839B2 (ja) * | 2004-06-29 | 2011-10-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 木構造データによるアクセス制御手段 |
JP4728610B2 (ja) * | 2004-08-04 | 2011-07-20 | 株式会社リコー | アクセス制御リスト添付システム、オリジナルコンテンツ作成者端末、ポリシーサーバ、オリジナルコンテンツデータ管理サーバ、プログラム及び記録媒体 |
US8561126B2 (en) * | 2004-12-29 | 2013-10-15 | International Business Machines Corporation | Automatic enforcement of obligations according to a data-handling policy |
US7917519B2 (en) * | 2005-10-26 | 2011-03-29 | Sizatola, Llc | Categorized document bases |
US7734554B2 (en) * | 2005-10-27 | 2010-06-08 | Hewlett-Packard Development Company, L.P. | Deploying a document classification system |
-
2006
- 2006-09-06 US US11/470,533 patent/US7610315B2/en active Active
-
2007
- 2007-09-05 CN CN2007800391075A patent/CN101529373B/zh not_active Expired - Fee Related
- 2007-09-05 GB GB0905186A patent/GB2455665A/en not_active Withdrawn
- 2007-09-05 WO PCT/US2007/077652 patent/WO2008030884A2/en active Application Filing
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546729A (zh) * | 2010-12-28 | 2012-07-04 | 北大方正集团有限公司 | 一种通信节点配置部署的方法及装置 |
CN102546729B (zh) * | 2010-12-28 | 2014-10-29 | 新奥特(北京)视频技术有限公司 | 一种通信节点配置部署的方法及装置 |
CN107430744A (zh) * | 2014-07-26 | 2017-12-01 | A·沙班 | 用于会计系统和过程的经修改的现金分类账基础 |
CN107430744B (zh) * | 2014-07-26 | 2023-11-28 | A·沙班 | 用于会计系统和过程的经修改的现金分类账基础 |
CN106776673A (zh) * | 2015-11-20 | 2017-05-31 | 奥多比公司 | 多媒体文档概括 |
CN106776673B (zh) * | 2015-11-20 | 2021-12-17 | 奥多比公司 | 多媒体文档概括 |
CN108369579A (zh) * | 2016-01-20 | 2018-08-03 | 微软技术许可有限责任公司 | 向文档部分上绘涂内容分类 |
CN108369579B (zh) * | 2016-01-20 | 2022-12-20 | 微软技术许可有限责任公司 | 向文档部分上绘涂内容分类 |
CN112507095A (zh) * | 2020-12-15 | 2021-03-16 | 平安国际智慧城市科技股份有限公司 | 基于弱监督学习的信息识别方法及相关设备 |
CN113139049A (zh) * | 2021-04-21 | 2021-07-20 | 北京明略昭辉科技有限公司 | 关联文档推荐方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
GB0905186D0 (en) | 2009-05-06 |
US20080059448A1 (en) | 2008-03-06 |
CN101529373B (zh) | 2012-06-06 |
WO2008030884A2 (en) | 2008-03-13 |
US7610315B2 (en) | 2009-10-27 |
WO2008030884A3 (en) | 2008-11-27 |
GB2455665A (en) | 2009-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101529373B (zh) | 确定和推荐用于文档的文档控制策略的系统和方法 | |
US11461859B1 (en) | Method for improving document review performance | |
Loshin | The practitioner's guide to data quality improvement | |
Guragai et al. | Accounting information systems and ethics research: Review, synthesis, and the future | |
Romney et al. | Accounting Information Systems Australasian Edition | |
Eckerson | Data quality and the bottom line | |
Neely et al. | Fifteen years of data and information quality literature: Developing a research agenda for accounting | |
Vona | The fraud audit: Responding to the risk of fraud in core business systems | |
Kaur et al. | Understanding Cybersecurity Management in FinTech | |
Cousins et al. | A value-sensitive design perspective of cryptocurrencies: a research agenda | |
Pathak | Information technology auditing: an evolving agenda | |
Dombalagian | Preserving human agency in automated compliance | |
Gurung et al. | Use of RegTech by Central Banks and its impact on financial inclusion | |
Soepriyanto et al. | Theory and factors influencing fraud in financial statements: a systematic literature review | |
Wieczorek et al. | Business continuity: IT risk management for international corporations | |
US7467107B1 (en) | Web-based system and method for hedge fund compliance | |
Giang et al. | Impacts of Blockchain on Accounting in the Business | |
King et al. | Governance, risk, and compliance handbook for Oracle applications | |
Skeoch et al. | Pricing cyber-insurance for systems via maturity models | |
Cohen | IT Security Governance Guidebook with Security Program Metrics on CD-ROM | |
Linn et al. | Financial restatements causes, consequences, and corrections | |
Khan et al. | Capital and Crime–Corruption Nexus in the Shadow of the Law: A Theoretical Analysis of Public Policy | |
Ramnath et al. | Integrating goal modeling and execution in adaptive complex enterprises | |
Gozman et al. | The role of big data in governance: a regulatory and legal perspective of analytics in global financial services | |
Baksa | Continuous monitoring of enterprise risks: A delphi feasibility study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120606 Termination date: 20140905 |
|
EXPY | Termination of patent right or utility model |