CN105378764A

CN105378764A - 计算机-人交互式学习中的交互式概念编辑

Info

Publication number: CN105378764A
Application number: CN201480039782.8A
Authority: CN
Inventors: P·Y·西马德; D·G·格朗吉耶; L·布特欧; S·A·阿默诗
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-07-12
Filing date: 2014-07-11
Publication date: 2016-03-02
Anticipated expiration: 2034-07-11
Also published as: EP3020006B1; US20150019460A1; WO2015006631A2; EP3742357A1; EP3020005B1; CN105393265B; KR20160030996A; WO2015006632A3; US9582490B2; WO2015006254A2; US20190213252A1; US9779081B2; WO2015006631A3; CN105393264A; EP3020008A2; CN105393263A; US20160239761A1; US11023677B2; US10372815B2; US9430460B2

Abstract

非常大的数据集合很难进行搜索和/或分析。可以通过将查询和网页自动地分类成有用的类型，并使用这些分类评分作为相关性特征，来显著地提高相关性。一种彻底的方法可能需要构建很大数量的分类器，它们对应于各种类型的信息、活动和产品。关于较大的数据集，提供分类器和概要器的生成。在数以亿计的条目上训练分类器和概要器，可以通过增加可用的元数据来揭露该数据固有的值。一些方面包括主动标注探索、自动正则化和冷启动、随着条目数量和分类器数量进行的扩展、主动特征化、以及分段和概要化。

Description

计算机-人交互式学习中的交互式概念编辑

背景技术

非常大的数据集合很难进行搜索和/或分析。例如，在网页的情况下，相当大的一部分的数据是未结构化的，并且值锁在数据本身之中。存储服务提供商的网页是不足够的。由于该信息是有用的，因此需要进行理解。根据上下文，数字串可以是模型编号、银行账号或者电话号码。例如，在滑雪产品的背景下，字符串“长度：170、175、180cm”指代3个不同的滑雪板长度，而不是1700公里的滑雪长度。对数据的不正确解释可能导致无用的信息。

举例而言，如果用户在互联网搜索引擎中输入两个词语“mtor”和“stock”，而结果主要由与药物mTor有关的网页来构成，搜索引擎没能将该搜索识别成股票报价查询。再举一个例子，如果用户在互联网搜索引擎中输入两个词语“seattle(西雅图)”和“sushi”，而结果主要是由与西雅图中的旅馆有关的网页来构成，搜索引擎没能将该搜索识别成饭店查询。尽管互联网搜索引擎通常对于标题查询和文档执行合理的工作，但由于搜索引擎不能自动地理解信息，因此准确性在尾部快速地下降。

发明内容

如果可以将查询和网页自动地分类在诸如股票报价或饭店之类的有用类别中，并且如果这些分类评分被使用成相关性特征，则可以显著地提高搜索结果的相关性。一种彻底的方法可能需要构建很大数量的分类器，它们对应于各种类型的信息、活动和产品。分类器的数量可以通过语言的数量和上下文(查询、网页、广告片段、产品提要(productfeeds)等等)的数量进一步倍增。期望将分类和概要化任务中的计算机准确性带到人类水平，并使普通人能够容易地生成它们自己的计算机克隆，以规模化地执行这些任务。举一个例子，可以提供一种工具，该工具被优化，以允许在数小时来生成大数据集合上的分类器和概要器。当分类器和概要器在数以亿计的条目上进行训练时，它们可以通过增加可用的元数据来揭露该数据固有的值。这种工具的一些应用包括搜索、广告和商业。

如本文所使用的术语“概要化”指代识别和填充Schema(概要)中的字段的动作。例如，一个食谱的Schema可以由四个字段构成：标题、描述、成分和用法说明。针对食谱Schema的网页的概要化是将页面分段成该食谱Schema的一个或多个实例，并相应地填充字段的动作。

互联网搜索引擎已构建数百的分类器和实体提取器，来尝试理解查询、网页和广告。不幸的是，当前方法的功效受到机器学习专家数量、编程人员的数量和任务复杂度的限制。

人类善于从数据中提取语义含义。当数据为他们撰写或由他们撰写时，格外如此。例如，他们可以容易地对网页、查询或者产品提要进行标注(或分段)。不幸的是，人们令人尴尬地不擅长大规模地做这些事情。按照每一网页十秒钟，一个人也不具有足够长的生命时间来筛选1亿个网页，以识别与给定的主题有关的所有页面。计算机具有正好相反的能力。它们令人尴尬地在语义理解方面很弱，但它们在规模化地做事件方面很突出。本文所描述的方法背后的哲理是构建利用人类和计算机二者的优势的高度交互式和直觉的系统。“高度交互性”意味着由人类输入的标记或特征应当对于计算具有即时的影响。在数秒之内，其应当影响出现哪些误差或者避免哪些误差，接下来应当标注哪个条目，用户应当聚焦于哪个特征，以及应当增加或者删除Schema中的哪个字段。“直觉”意味着用户应当理解他们的动作的效果，以及在不需要机器学习或者编程经验的情况下，理解如何实现他们的目标。该方法需要来自计算机和人类二者的循环。该循环可以通过快速的机器学习“修订”来紧密地交织。人指导计算机，反之亦然。

效率的另一个方面是在其他人的工作之上进行构建的能力。对于网络的探索的重要贡献是“查看源”和复制粘贴能力。在机器学习中，复制粘贴能力来自于训练的分类器可以被使用成针对其它分类器的特征的事实。通过生成可搜索和文档化的分类器仓库，人们能够在彼此的工作之上进行构建。这可应用于分类器和概要器二者。

附图说明

图1描述了根据本发明的实施例的示例性操作环境；

图2描述了根据本发明的实施例的表示可搜索数据条目的语料库的示例性数据集；

图3描述了根据本发明的实施例的示例性概率图；

图4描述了根据本发明的实施例的示例性主动标注探索信息流；

图5描述了根据本发明的实施例的示例性采样分布；

图6描述了根据本发明的实施例的示例性主动标注探索扩展的概括；

图7描述了根据本发明的实施例的示例性分类功能；

图8描述了根据本发明的实施例的示例性界面；

图9描述了根据本发明的实施例的对街道地址的示例性分段；

图10描述了根据本发明的实施例的对分段器的示例性网格表示；

图11描述了根据本发明的实施例的已从网页中提取的地址的示例性部分；

图12描述了根据本发明的实施例的用于提取地址的示例性有限状态机；

图13描述了根据本发明的实施例的用于计算路径概率的示例性有限状态机网格；

图14描述了根据本发明的实施例的示例性网格边缘权重函数；

图15描述了根据本发明的实施例的示例性有限状态机模块；

图16描述了根据本发明的实施例的示例性有限状态机；

图17描述了根据本发明的实施例的用于地址的二进制标注的系统的示例性屏幕截图；

图18描述了根据本发明的实施例的在用于地址的二进制标注的系统中的示例性搜索结果；

图19根据本发明的实施例，描述了用于地址的二进制标注的系统的示例性屏幕截图；

图20描述了根据本发明的实施例的用于地址的二进制标注的系统的示例性屏幕截图；

图21描述了根据本发明的实施例的标注查看面板的示例性屏幕截图；

图22描述了根据本发明的实施例的用户标注的文档中的模型预测的示例性屏幕截图；

图23描述了根据本发明的实施例的标注工具的示例性屏幕截图。

具体实施方式

本文所描述的方法产生大量的工程和科学挑战，下面将进行讨论。这些挑战包括：

●主动标注探索

●自动正则化和冷启动

●随着条目数量和分类器数量进行扩展

●主动特征化

●分段和概要化

在第一方面，提供了包含计算机可使用指令的计算机可读介质，以有助于实现交互式生成用于机器学习的字典的方法。呈现用于生成字典的用户界面，其中该字典包括词语或者n元词(其定义作为用于训练分类器的特征可用的概念)中的一个或二者的列表。在用户界面上，呈现正例字段，其中该正例字段被配置为接收作为概念的正例的用户输入词语或者n元词，其中这些正例是通过下面中的一项或多项来接收的：A)键入条目或者B)从一个或多个建议集字段中选择一个或多个建议的词语或n元词。在用户界面上，呈现被配置为显示一个或多个系统生成列表的所述一个或多个建议集字段，其中所述一个或多个系统生成列表包含可选择以包括在正例字段中的建议的词语或n元词。

可以接收作为概念的第一正例的第一用户输入词语或n元词。可以呈现建议的词语或n元词列表，其中该建议的词语或n元词列表表示至少基于所述概念的第一正例所生成的泛化概念。在呈现建议词语或n元词列表之后，可以接收作为概念的第二正例的第二用户输入词语或n元词。可以至少基于第一正例和第二正例的组合，来改进建议词语或n元词列表。可以呈现表示改进的泛化概念的建议词语或n元词的改进列表。

在用户界面上，可以呈现反例字段，其中该反例字段被配置为接收作为概念的反例的用户输入词语或者n元词，其中这些反例是通过下面中的一项或多项来接收的：A)键入条目或者B)从一个或多个建议集字段中选择一个或多个建议的词语或n元词。在呈现建议词语或n元词列表之后，可以接收作为概念的反例的第二用户输入词语或n元词。可以至少基于第一正例和该反例的组合，来改进建议词语或n元词列表，以及可以呈现表示改进的泛化概念的建议词语或n元词的改进列表。可以接收从建议集字段中的对一个或多个词语或n元词的用户选择。可以将用户从第一建议集中选择的一个或多个词语或n元词包括在正例字段中。

字典中的每一个词语或n元词可被分配相应的权重。可以在字典的生成期间，基于训练数据，通过频率和字典大小的函数，来缩放每一个词语或n元词的相应权重。缩放的权重可以通过正则化约束相关，其中该正则化约束将具有较少训练数据的词语的权重向由具有更多训练数据的词语所确定的值调整。

在第二方面，提供了包含计算机可使用指令的计算机可读介质，以有助于实现交互式生成用于机器学习的字典的方法。呈现用于生成字典的用户界面，其中字典包括用于定义概念的n元词列表，该字典作为用于训练分类器的特征可用。在用户界面上，呈现正例输入字段，其中该正例输入字段被配置为接收作为概念的正例的用户输入n元词。在用户界面上，呈现被配置为显示一个或多个系统生成的建议n元词列表的一个或多个建议集字段。接收作为概念的正例的一个或多个用户输入n元词。基于所述一个或多个用户输入的正例，生成表示第一泛化概念的第一建议n元词集合。在用户界面上的第一建议集字段中，呈现第一建议n元词集合。

可以基于至少一个或多个额外的用户输入的正例，生成用于表示对第一泛化概念的改进的对第一建议n元词集合的改进，以及可以在用户界面上呈现对第一建议n元词集合的改进。可以重复用于生成该改进和呈现该改进的步骤，直到接收到用户已完成编辑该字典的指示为止，并且可以将正例输入字段的内容保存在字典中。

可以基于一个或多个用户输入的n元词，生成用于表示第二泛化概念的第二建议n元词集合。可以呈现第二建议n元词集合。可以使用第一源来生成第一建议n元词集合。可以使用第二源来生成第二建议n元词集合。第一源可以包括下面中的一项或多项：A)先前存储的字典、B)表示查询和被访问的网页的点击图、C)在万维网上发现的表的内容、或者D)词语的语义表示。

在用户界面上，可以呈现反例输入字段，其中该反例输入字段被配置为接收是概念的反例的用户输入n元词。可以接收作为概念的反例的一个或多个用户输入n元词。可以基于至少一个或多个用户输入的反例，生成用于表示第二泛化概念的第一建议n元词集合的改进，以及可以在用户界面上呈现对第一建议n元词集合的改进。

在第三方面，提供了包含计算机可使用指令的计算机可读介质，以有助于实现交互式生成用于机器学习的字典的方法。生成用于编辑字典的界面，其中字典包括用于定义作为用于训练分类器的特征可用的概念的词语列表。在该界面上，呈现正例输入字段，其中该正例输入字段被配置为接收作为概念的正例的用户输入词语。在用户界面上，呈现反例输入字段，其中该反例输入字段被配置为接收作为概念的反例的用户输入词语。在用户界面上，呈现建议集字段，其中该建议集字段被配置为显示系统生成的建议词语列表，其中该建议词语列表表示基于正例输入字段或者反例输入字段中的一个或二者中的词语的泛化概念。接收作为概念的正例或反例的一个或多个用户输入词语，其中所述一个或多个用户输入词语是通过下面中的一项或多项来接收的：A)键入条目，或者B)从建议集字段中选择一个或多个建议的词语。可以基于所述一个或多个用户输入的正例或反例，来生成表示泛化概念的建议词语集合。在用户界面上的建议集字段中，呈现该建议词语集合。接收从该建议词语集合中的对第一建议词语的用户选择。将第一建议词语包括在正例字段或者反例字段中。至少基于在正例字段或者反例字段中包括的第一建议词语，对建议词语集合进行改进。在第一建议集字段中呈现改进的建议词语集合。接收用户已完成编辑该字典的指示，将正例输入字段的内容保存在字典中。

在用户界面上，可以呈现一个或多个输入字段，其中所述一个或多个输入字段被配置为接收下面中的一项或多项：A)用于指示可训练参数是否与字典中的各个词相关联，或者是否存在与整个字典相关联的一个可训练参数的用户选择；B)，用于指示与字典相关联的特征值是否是基于字典词语的数量的二进制值，或者该特征值是否是字典词语的频度的预定函数的用户选择；C)用于指示词频是否进行归一化的用户选择；D)用于指示用于调节被分配给字典中的词语的相应权重之间的相关性程度的正则化阈值的用户选择；或者E)用于指示当来自该字典的多个词出现在一个文档中，或者当来自该字典的单个词在该文档中多次出现时，该特征值是否更高的用户选择。

字典中的每一个词语可被分配相应的权重，其中这些权重与正则化约束有关，该正则化约束将具有较少训练数据的词语的权重向由具有更多训练数据的词语所确定的值进行调整。

在简要描述了本发明的一些方面的概述之后，下面将描述适合于在实现本发明的一些方面中使用的示例性操作环境。

具体而言，首先参见图1，通常将用于实现本发明的一些实施例的示例性操作环境示出并指定成计算设备100。计算设备100仅仅只是适当的计算环境的一个例子，其并不是旨在建议关于发明实施例的使用或者功能的范围的任何限制。也不应当将计算环境100解释成具有任何依赖，或者具有与所示出的部件中的任意一种或组合有关的需求。

在由计算机或其它机器(诸如，个人数据助理或其它手持设备)执行的计算机代码或者机器可使用指令(其包括诸如程序模块之类的计算机可执行指令)的通常背景下，描述本发明的一些实施例。通常，包括例程、程序、对象、部件、数据结构等等的程序模块，指代执行特定任务或者实现特定的抽象数据类型的代码。可以在各种各样的系统结构(其包括手持设备、消费电子、通用计算机、更为专业计算设备等等)中实现本发明的一些实施例。此外，本发明的一些实施例还可以在分布式计算环境中实现，其中任务由通过通信网络来链接的远程处理设备来执行。

参见图1，计算设备100包括直接或间接耦合以下设备的总线110：存储器112、一个或多个处理器114、一个或多个呈现部件116、输入/输出端口118、输入/输出部件120和示例性电源122。总线110表示其可以是一个或多个总线(诸如，地址总线、数据总线或者其组合)。尽管为了清楚说明起见，利用线来示出图1中的各个模块，但在现实中，描绘各个部件并不是如此清晰，比喻性的，这些线更准确地是灰的和模糊的。例如，可以考虑诸如显示设备之类的呈现部件是I/O部件。此外，处理器具有存储器。应当认识到，这是本领域的本质，并且重申，图1的图形描述只是可以结合本发明的一些实施例使用的示例性计算设备的举例。不在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等等这些类别之间进行区分，所有这些都预期落入图1的范围之中，并指代为“计算设备”。

一般情况下，计算设备100包括各种各样的计算机可读介质。举例而言而并非做出限制，计算机可读介质可以包括随机存取存储器(RAM)；只读存储器(ROM)；电可擦除可编程只读存储器(EEPROM)；闪存或者其它存储器技术；CDROM、数字多用途盘(DVD)或者其它光或全息介质；盒式磁带、磁带、磁盘存储或其它磁存储设备、载波、或者可以用于对期望的信息进行编码并由计算设备100进行访问的任何其它介质。

存储器112包括具有易失性和/或非易失性存储器形式的计算机存储介质。该存储器可以是可移动的、不可移动的或者二者的组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O部件120之类的各种实体读取数据的一个或多个处理器。呈现部件116向用户或其它设备呈现数据指示。示例性呈现部件包括显示设备、扬声器、打印部件、振动部件等等。

I/O端口118允许计算设备100逻辑地耦合到包括I/O部件120的其它设备，这些部件中的一些可以内置。示例性部件包括麦克风、操作杆、游戏手柄、圆盘式卫星电视天线、扫描仪、打印机、无线设备等等。

I.ALE(主动标注探索)挑战

在非常大的数据集上构建分类器(或概要器)存在独特的挑战：应当从哪个分布中提取训练集？在观察了百万样本之后，从真实分布中随机选择的条目并不能产生任何正例。有偏采样可能产生更多的正例，但其可能是如此不典型的真实分布，以至于当被部署到真实世界时，作为结果的分类器不大可能很好地执行。考虑其中的任务是构建用于在万维网上寻找烹饪食谱网页的分类器的虚构场景。对网页的随机选择不大可能返回任何食谱(即使在浏览了一百万网页之后)。针对词语“食谱”的搜索将返回食谱的有偏样本(其将找到“数值分析”，遗漏“烹饪冒险”)。以四个阶段(数据收集、标注、训练和特征化及调整、部署)的传统开发是次优的，其可能导致一些灾难。例如，可能在部署期间发现分类器遗漏了很多民族食谱，而返回了水泥搅拌页面作为烹饪食谱。分类器没有过错。问题在于采样和问题的公式化表达。利用均匀采样进行训练的分类器将快速地学习到：不变的回答“非食谱”对于该分布足够好。聪明的操作者可以稍稍调整该分布以构建更有用的分类器，但这将引入泄漏该操作者的无知的偏差。例如，操作者可能不具有非洲食谱的知识，直到该系统被部署并且用户开始抱怨为止。从操作者的观点来看，世界看起来类似图2中的图片。图2示出了用于表示要搜索的数据语料库的示例性数据集210(“大数据”)。(整个椭圆之中的)区域212表示操作者了解的正例。区域214(两个椭圆中的全部区域)表示语料库210中的所有正例。(整个椭圆之中的)区域216表示分类器标注成正例的例子。区域218(区域216中的区域214的相对补集，即，区域216中的不包含在区域214中的那部分)表示被分类器误标注成正例的例子(伪正例)。

问题是如何对系统进行部署，其中该系统能在不知道其存在的数据上很好地执行。一种观察在于只要操作者能按需地对条目进行正确分类，他/她可不知道分布。主动标注探索(ALE)算法是基于该观察的。标注是将数据或者数据的概要分类成属于特定的类别的过程，例如，标注“321市场街”作为地址的一部分。使用从真实分布中提取的未标注数据的大规模集合(还没有对其执行标注过程的数据)，来执行主动标注探索。在每一个标记(或者几个标记)之后，利用新标记对分类器进行再训练，以及对大规模未标注数据集(例如，数千万或数亿的未标注概要)进行重新评分。随后，系统根据它们的评分，选择下一个要进行标注的概要。为了该方法进行工作，需要解决冷启动问题(即，发现正例的“种子”)。

在一个方面，集成的交互式标注系统包括标注部件、训练部件、评分部件、采样部件和搜索引擎部件。此外，集成的交互式标注系统还可以包括一个或多个其它特征，例如，搜索引擎是基于关键词搜索；搜索引擎使用特征评分作为过滤器；训练和评分是在无需由操作者进行触发的情况下自动完成的；或者可以异步地完成评分和采样。

在另一个方面，集成的交互式标注系统包括标注部件、训练部件、评分部件和采样部件，其中可以将标注作为服务进行卸载，由泛化增益来测量标注质量。此外，集成的交互式标注系统还可以包括其它特征，例如，多类标注包括多个二进制标注；或者近似同时地使用系统生成的预标记来标注多个样本，以及在系统中包括验证概要以查看由置信度来分类的近似标记。

考虑构建用于网页的分类器的例子(该方法可以工作于查询、图像或者其它类型)。假定用户已访问1亿的网页(本文称为工作集)。这些网页可以根据重要性进行偏置(例如，高页面排名)，但不根据旨在要构建的分类器的性质来进行偏置。这些网页既未标注，也未排序。假定存在较小的并且有偏的正例和反例集合，并且可以利用具有合理泛化性能的这些例子对分类器进行训练。(下面将讨论针对利用具有良好泛化性能的小数据集合来训练分类器的“冷启动”挑战)。训练的结果被称为“计分器”。计分器具有反映它们所训练的集合的版本号。只要第一计分器是可用的，则开始对工作集的“评分操作”。该过程需要大量的计算能力。作为评分的结果，条目可以根据它们成为“X”的概率来进行排序，其中“X”是要构建的分类器的类别，即，“X”是该特征或者标记的正例。

图3示出了多个条目310对比一个条目是“X”的概率P312的示例性图300。如图3中所示，如果基于由给定的计分器所产生的评分来采样工作集，则可以进行下面的观察：

●标注P＝0周围的条目产生较小的值。存在很多的这些条目，已经知道它们不是期望的类别。

●标注P＝1周围的条目产生比特更多的值，但这些条目是非常稀少的。找到它们要花费较长的时间(可能需要对整个工作集进行评分)，并且不得不探究更低的概率来发现要标注的条目。这种情况假定类似上面所示出的情形的分布(如果该分布倾向于另一个方向，则反转P＝0和P＝1)。

●在P＝0.5周围进行标注有时可能是高代价的，其可能产生较少的信息(如果类别边界是固有地模糊的话)。

●在P＝0.75周围进行标注，在每4个条目中发现一个伪正例。这种区域中的标注提高查准率。

●在P＝0.25周围进行标注，在每4个条目中发现一个伪反例。这种区域中的标注提高查全率。

图5示出了分别在0.25和0.75的概率周围的采样分布的例子。例如，为了在0.75周围采样，可以将所有的例子根据它们的评分放置在1000个桶中。第一桶具有评分在0和0.001之间的所有例子，下一个桶具有评分在0.001和0.002之间的所有例子，等等。随后，可以向每一个桶分配采样概率，例如，诸如图5的右侧。具有这种分布的例子会引起比率为25％的伪正例。

ALE(主动标注探索)的目标是由在数分钟或数秒之内运行的交互式循环，来替代长时间并且艰巨的“数据收集、标注、训练和调节、部署”循环。

ALE具有同时运行的三个过程。它们是采样+标注、训练和评分，如表1中所示：

表1：3个并行的ALE过程(采样、训练和评分)

第一过程(采样+标注)由用户进行驱动。用户的任务是通过对由系统所选择的条目进行标注，来提高查准率和查全率。用户对于训练和评分过程是不在意的。从用户的观点来看，系统简单地选择较佳概要来标注，分类器增加其关于日益增加的不同集合的泛化能力。用户可以选择针对查准率或者查全率的标注，或者该选择可以由系统来做出。

发生在这些场景之后的稍微更加复杂。当已收集到足够的新标记时，对(不同复杂度的)分类器系列进行再训练。该系列中的最佳分类器为最新计分器。评分是计算密集型过程。如果由评分过程没有完成来自前一计分器的评分，则中断正在进行的评分，新的计分器首先以最旧评分为开始来继续对条目进行评分。根据任务和数据的大小，评分过程将花费数分钟或数小时。但是，期望的是，操作者应当不需要等待查询过程：在任何时间点，每一个条目应当具有评分(这些评分可以来自于具有不同版本的计分器)，以及所有评分应当位于存储器之中。由于查询是通过独立过程来完成的(分布在几个机器之上)，应当在子秒时间之内完成所有这些评分之上的完全线性扫描(假定十亿项条目和100个机器)。训练和评分由独立的过程异步地运行，所以它们并不影响查询响应时间。如果自从上一个计分器产生以来，已重新计分了很少的条目，则下一个应当被标注的那个条目的选择的质量降级。在图4中概括了ALE信息流。用户输入被表示为“虚线”箭头。系统参数被表示为点线箭头。上传数据416。标记418由用户提供，其为用户在训练期间所标识的记号提供语义含义。

给定新的训练数据420和相应的标记418，训练422产生新的计分器424。新的计分器产生新的评分426，在过滤428之后，该新的评分426产生新的训练数据420。过滤器432可以包括下面将讨论的字典，还可以包括先前生成的分类器。

该循环继续，直到操作者确定计分器的性能提高与标注成本相比是不再值得的为止。结果是新分类器430。

在主动特征化的讨论中，下面将讨论图4中描述的“特征函数”输入410。图4中所描述的“探索查询”输入412的目的是出于冷启动问题和出于探索(重复的冷启动)，如下面参照冷启动所描述的。系统的“超参数”输入414与自动正则化有关，其也在下面进行讨论。

返回到图3，在一个实施例中，通过对P＝0.75周围的数据进行过滤以提高查准率，以及对P＝0.25周围的数据进行过滤以提高查全率，系统来进行采样。这些阈值是可调整的。如先前所提及的，图5描述了根据评分520的采样分布510的示例性图500。与例如针对0和1之间的所有评分进行的均匀采样相比，这种交替的策略已证明是更有用的。

A.交互式问题定义改进

类别的语义含义可以根据探索来改变。ALE提供用于在任务被执行时的、演化该任务的灵活性。例如，可以开始于构建“主页”分类器的目标。但如系统发现诸如社交媒体页面、讣告、事件、以及在探索期间以单个个体为中心的其它页面的候选者，则需要对什么是主页的定义进行改进。这可以在运行ALE循环时，容易地交互式来完成。

在任务启动时，构建能在未知的数据上良好执行的分类器，看起来是一项难于定义的目标。然而，经验已显示当人涉及标注时，他们是值得信任的(即使在涉及估计分布的形状时，他们是无知的)。如果人与经由探索来聪明地探查分布的系统进行配对，则可以构建非常健壮的系统。ALE算法利用计算机的扩展能力和用于通过标注来提供语义含义的人类能力。

主动学习具有其挑战。在主动学习算法中典型遇到的潜在问题，包括：不确定采样的脆弱性、模型选择(调整针对可用数据的容量)、探索、主动特征化、分离的类别和冷启动。本文所描述的ALE系统并不具有不确定采样的脆弱性，这是由于其并不聚焦于决定边界。下面将讨论自动正则化(模型选择)和冷启动。在后续章节中，将描述主动特征化和其如何补充主动标注。

1.不均衡数据和可达性

通常将主动学习视作为增加在具有固定数量特征的固定大小集合上标注的效率的手段。在典型的机器学习设置中，目标是提高准确性。本文所描述的重点不同，其差别在于：其是关于提供能帮助用户增加标记和特征，以生成有价值的分类器或概要提取器的探索工具。利用具有不均衡类别的大数据，将仅仅不断地观察一小部分的数据，而一些金砖(nugget)正例或反例可从未被发现。当它们被发现时，也可以假定分布已改变。当联机发现该分布时，违犯了机器学习所依赖的基本假定-针对训练和测试集的IID采样。如果正例的数量是T，数据的大小是N，则不能在没有对多个概要(其与N/T成正比)进行标注的情形下，对查全率进行估计。如果T＜＜N，则可能从不知道查全率的是什么。不能够证明整体分布上的学习收敛。

然而，可以通过被称为可达性的测量手段，来测量整体分类器进展。如本文所定义的，可达性是由分类器分类成正例的正例数量。使S是由分类器所估计的正例集合(图2中的椭圆216中所描述的)：

S＝{d:分类器输出是正例}

使T是总数据集内的真正例集合(图2中的椭圆216中所描述的)：

T＝{d:d是正例}

转而，可达性(R)是由分类器所估计的正例集合内的真正例的数量(如图2中的椭圆216和214的交叉部分所描述的)：

R＝|S∩T|

可以依据查全率或者查准率来表示可达性，如ρ＝r|T|＝φ|S|，其中r是分类器的查全率，是分类器的查准率。但是，由于集合T是未知的，因此在该情况下，不能直接计算查全率。但是，由于T是固定的，因此可达性直接与查全率成比例。为了增加分类器的查全率，可以替代地增加可达性。因此，分类器构建任务的目标，可以依据可达性和查准率来公式化表达。

例如，使是S中的查准率，即，将S中的真正例的数量(图2中的椭圆216和214的交叉部分)除以S的大小：

以及使r是S中的查全率，或者S中的真正例的数量除以数据集中的真正例的总数量：

r = \frac{| S \cap T |}{| T |}

可以通过对S中的例子的随机子集(或者全部)进行标注，来计算的估计量数量估计由系统所发现的正例的数量。由于T是未知的，因此不能计算查全率但是，使用查准率的估计和与查全率成比例的估计可以跟踪系统的前向整体进展。按照固定的(或者非降低的)查准率，增加可达性将增加查全率。此外，按照固定的(或者非降低的)可达性增加查准率，增加针对不变(或者增加的)查全率的查准率。

存在也可以用于测量进展的其它标准。例如，如果通过探索发现的大部分误分类的概要是模糊的，则分类器在查准率上进行良好；如果通过增加特征能容易地处理大部分误分类概要，则分类器探索良好。

a.估计可达性

可以基于标注策略和未标注例子的评分分布，来估计可达性。举一个它的例子，使L是标记集合，U是全集，S是具有评分≥τ(设置的阈值)的概要(图2中的椭圆216里的全部区域)。假定根据以样本的评分为条件的概率分布，通过采样来定义标注策略，即可以针对每一个文档w∈U，计算采样的概率p_s＝Pr[w∈L|score(w)＝s]。

使

n_s＝|T∩{w:score(w)＝s}|

是具有评分s的正例的数量，使

m_s＝|L∩T∩{w:score(w)＝s}|

是具有评分s的已标注正例的数量。针对已标注正例的数量的期望，可以写成：

E[m_s]＝n_sp_s

因此，由于ρ＝|T∩S|＝Σ_S≥τn_s，所以可达性可以通过下式来估计：

ρ = \underset{S &GreaterEqual; τ}{Σ} \frac{E [m_{s}]}{p_{s}} = E [\underset{S &GreaterEqual; τ}{Σ} \frac{m_{s}}{p_{s}}]

例如，通过对标记集合进行子采样，可以对期望进行估计。

注：可以通过以不相交的间隔来覆盖间隔[τ…1]，以多种不同的方式来完成上面的估计。不是所有的分解都相等，其在于：一些在估计中具有更小的误差条。

利用具有不均衡分布的较大数据集，提高准确性，同时假定均匀采样的固定分布快速地达到减少返回的状态。更感兴趣的问题是将该分布视作为移动目标，并涉及操作者对其进行跟踪。从机器学习理论的立场，这两个问题是非常不同的。工程挑战(扩展、过程、用户体验(UX))和科学挑战(其中，探索度量、采样策略、修订训练)均会遇到。ALE算法解决这些挑战。

II.ARCS(自动正则化和冷启动)挑战

为了良好地工作，ALE算法需要一些标记、一些特征和早期分类器的良好泛化属性。这需要解决两个问题。首先，需要正例和反例二者，以及启动特征。这是冷启动问题。由于处于不均衡分布而变得困难，正(或者反)例可能是非常的稀少。例如，如果正例小于百万分之一，则发现足够的它们来使分类器工作将是费时的(使用随机采样)。在不具有特征或者有效用的分类器的情况下，ALE算法是无帮助的。第二问题是自动正则化。在只具有几个标记的情况下，分类器需要进行大量地正则化以避免过度训练。正则化需要进行自动地调整，使得算法的复杂度可以与日益增加数量的标记相匹配。这被称为“热启动”问题。

A.冷启动

可以对该问题进行如下概括：假定在系统中已输入了相同类型T的通用例子的大型数据库，如何对它们进行区分？为了实现训练，需要一些特征(其中这些特征用于使条目进行彼此区分)，需要用于发现正例和反例的手段。通过提供实现IScorer<T>接口的模块，来解决该问题。IScorer模块可以由系统来提供，或者由工程人员来输入(例如，当收集数据时)。实现该接口的模块可以计算函数T→ScoreType，其中ScoreType是由系统针对数据库中的所有条目都理解的类型(例如，0和1之间的浮点数)。随后，可以对一些或者所有条目来计算评分，并可以进行查询和分类。这允许操作者发现每一种类别的第一例子，同样对它们进行标注。IScorer模块还可以使用成分类器的第一特征。通过ALE算法，发生下一个循环。

如果数据类型是先验已知的，则可以提供特定于数据的一些标准系统特征。特定于数据的特征甚至可以从操作者接受参数。随后，这些特征可以用于区分、过滤、标注或者探索该数据。例如，如果这些例子是网页，则系统IScorer<WebPageType>可以是计算网页对于查询的相关性的模块。该查询是特征的参数，并由操作者提供。一旦该查询参数是固定的，则该模块在ALE算法下运行，因此针对其相关性来评估每一个网页。与反向索引相比，这种实现是非常不高效的，但其具有通用的优点。不管数据类型T，操作者可以提供下面的内容：

●类型T的N个条目的收集。

●支持IScorer<T>接口的模块(例如，DLL)。

系统不需要理解类型T。可以在系统之外，对该模块进行参数化(所提供的dll包含查询项)，或者系统可以提供用于操作者在运行时间设置这些参数的手段(例如，查询)。

给定针对文本理解的普遍需求，可以支持通用API(其中操作者可以输入实现IScorer<T>的模块)和内置文本特征二者。

特征的定义可能是混乱的。对特征的严格定义是将其输出使用成分类器(或概要器)的输入的函数。由于查询是一种形式的分类器，因此特征可以用于查询。由于一个分类器的输出可以使用成另一个分类器的输入，因此分类器是它们自己的特征。特征来自于三个地方：内置、操作者生成(无需训练)和训练的分类器。一些内置特征可以由操作者进行参数化(混合)。一些内置特征仅仅可用于某些数据类型。

为了启用文本特征，在数据库中输入的类型T的条目必须支持IWordCollection接口。该接口允许自动建立反向索引，实现针对数据库的高效的类似查询接口。对于支持该接口的数据库而言，冷启动问题几乎得到解决。当这是不足够时，以及对于不支持IWordCollection的数据库而言，操作者可以提供支持IScorer<T>接口的额外模块。一旦系统具有足够强大以有效地区分数据库中的条目的IScorer<T>模块，则冷启动问题已得到解决。

B.AR(自动正则化)

在交互式机器学习中，标记和特征的数量随时间发生变化，如增加了标记和特征。随着标记进入，可以连续地利用10、20、40、80、160的示例性计数来对分类器进行(再)训练。对于每一个训练会话而言，优化正则化是不同的。期望的是，即使在具有很少例子的情况下，系统也能很好地执行，这是由于寻找接下来要标注的良好例子，能帮助系统更快速地学习。由于这转而使系统能够选择接下来要标注哪些例子，因此泛化的影响是混合的(每一次迭代增加后续标记的值)。本文将在存在较少标记时能很好执行的问题，称为“热启动”问题。

要求操作者手动调整正则化引入了复杂度，并且其是不需要的。对于不熟悉机器学习的操作者来说，正则化的概念是无望的困惑。幸运的是，给定标记和充足的计算能力，可以对很小系列的不同复杂度的分类器进行训练，并使用交叉验证来确定哪一个泛化最优。

例如，如果任务是识别手写的数字，则可以具有两个分类器：线性分类器和最先进的四层卷积神经网络(二者以像素为输入，并且输出针对每一类别的概率)。当使用每一类别1000个例子来训练时，第二分类器比第一分类器工作效果更好，但在每一类别小于30个例子的情况下，其评分是相当糟糕的。当利用如每一类别一个或两个那么少的例子来训练时，线性分类器产生相当好的分类器和计分器。如果它们均利用交叉验证来训练和测量，则可以非常容易地自动决定使用哪个分类器。在具有足够的例子来使两个分类器可比较时，操作者很难容易地区分哪个分类器更好(它们具有相同的泛化性能)。这意味着在具有适当定时的情况下，具有不同正则化的分类器之间的切换可以透明地、自动地完成，而无需操作者知道。

本文将正则化解释成：将可学习函数系列约束为更可能进行泛化的函数子集。这可以在输出层级处、在体系结构层级处或者在输入层级处来完成：

●输出(标记生成)：通过生成或者改变标记，可以控制什么函数是经过训练可实现的。该约束可以用于正则化。例如，不是对具有标记的集合进行训练，而是使用先验知识在提供标记的集合上生成新的集合。对于网页而言，这可以通过使用点击图形以寻找类似页面，并向它们分配相同标记来扩充正(相应地反)例来进行。对于图像来说，这可以通过应用转换(例如，旋转或平移)，并假定作为结果的图像与它们所源自的图像具有相同的标记来进行。在两种情况下，可以调整集合的大小和失真的强度。每一个正则化值定义一个分类器。使用交叉验证来挑选获胜的分类器。

●体系结构：可以通过改变学习算法(例如，SVM、神经网络、决策树)或者容量参数(权重衰减、训练时间、隐藏单元数量)，来影响可学习函数系列。

●输入：可以改变输入特征。通过改变输入特征的辨别力，可以实现不同水平的正则化。例如，可以具有用于计算网页的各种有用属性的一组系统特征。通过控制这些输入特征何时是可用的，可以自动地调整容量和正则化。对于由输入特征所引起的容量的例子，考虑对网页大小的对数进行测量的特征(或者特征集)。该特征可以具有有用的信息，但太早地使用可能会出错。当标注的例子的数量较少时，每一个例子可以具有不同的长度，并且有足够的容量对训练集上的正例和反例进行良好分类。随后，作为结果的计分器基于页面的长度来建议标注页面(这可能是浪费时间)。通过仔细地选择输入特征，可以构建具有不同正则化属性的分类器系列。这可以被视作为“反正则化”的例子。选择性地增加容量。

III.扩展挑战

ALE算法以两个不同的方向扩展。一个是根据条目的数量，进行查询、评分和训练的能力。第二是随着贡献者所提供的分类器和概要器的数量进行扩展的能力。图6中示出了其的一种示例性概括，其通常被称为扩展600。

A.随条目数量进行的扩展

图6中的最左边列将多个特征描述成条目610(“条目1”…“条目n”)，其表示随条目的数量进行的扩展。随条目的数量进行的扩展是一种计算挑战。为了使得ALE高效，需要三种类型的计算：训练、评分和查询。可以在单个机器上完成训练(一个线性分类器可以在几秒之内对1M+个例子进行训练)，也可以在多个机器上进行训练(如果同时训练多个分类器的话)。评分是一项固有的并行任务，该任务可以被分布在多个机器上。典型的“采样”通常是根据评分的过滤操作，例如，返回其作为X的概率在0.70和0.80之间的条目。可以利用mapreduce来进行这种过滤，但其应当是快速响应的(这是由于系统的用户会等待着要标注的下一个条目)。这种情形建议针对过滤操作所优化的分布式存储器内列存储。

B.随分类器的数量进行的扩展

图6中的三个最右边列描述了用于对条目610中的每一个进行评分的多个分类器612(“C₁”…“C₂”)。随着分类器或概要器的数量进行的扩展是一项人机交互(HCI)挑战。机器学习专家可以构建几十个分类器。招聘和留住100个机器学习专家是困难和昂贵的。在不改变游戏的情况下，构建10,000个分类器是不现实的。ALE允许公司快速地构建10,000+个高性能的分类器和/或概要器。

为了规模构建分类器，利用三件事：

●可访问性：减少构建分类器所需要的专业知识。不需要机器学习背景知识。

●动机：使构建分类器容易、有趣和神奇。

●效率：就操作者的时间而言，极大地提高构建分类器的效率。

可访问性产生能够构建分类器的一大批人。动机增加该人群中的人构建分类器的积极性。效率使生成率翻倍。下面最后描述动机，这是由于从UX角度来看，其包含其它二者。

1.可访问性

普通人不理解机器学习。如果系统需要机器学习专业知识，则可用机器学习专家的数量成为一个瓶颈。为了克服该瓶颈，可以将界面限制于仅仅几个动作，这些动作不需要工程技巧。该界面具有阻止与改善的泛化不相兼容的行为的护栏。可以将操作者的动作限制为下面的动作：

●生成新分类器/概要器任务

●标注

●特征化

ο生成条目的字典

ο从现有的分类器中发现和选择特征。

应当注意，“训练”、“评分”和“正则化”并不是标准动作。这些计算隐含和透明地发生。作为这些动作的结果，操作者将观察到向他或她呈现的错误类型中的改变。这是提高查准率的效果，并且其对于下一次的查准率提高将做出贡献。类似地，提取新概要来用于标注。这是提高查全率的效果(在一些情况下，查准率)，并且其对于下一次的查全率(相应地查准率)提高将做出贡献。

存在类似于查准率的一些进展度量，或者由系统发现的正例或反例数量的估计器，或者分类器的类别边界周围的改进率。显示具有误差的度量，鼓励数据聚焦方法进行训练。自动特征的用途被限于鼓励操作者提供有价值的概率和标记作为替代。为了明确地阻止过度训练，不断地重新循环测试集，使得修改单个误差没有益处，相反通过修改多种类型的误差利益显现。操作者可以开始于不具有机器学习背景知识，而是对UX进行优化以训练他/她提高泛化。

2.效率

可以以花费操作者多少精力来生成具有给定查准率和查全率的分类器，来对效率进行测量。由于不知道查全率是多少(关于具有一些正例的较大数据集，可能很难知道存在多少正例)，因此这种定义可能是有问题的。甚至在发现一些例子之前，也不能对类别定义进行很好地规定：讣告是主页？鸡尾酒混合烹饪食谱？这些问题可能只在分类器的构建期间才出现。采取两种假定：首先，假定可以对两个分类器进行比较，并明确地确定一个比另一个更好(更佳的查全率、更佳的查准率)。第二，假定提高分类器可以包括具有多个“修订周期”。

将修订周期定义成操作者输入，该操作者输入取决于计算，接着是取决于操作者的最近输入的计算。在每一个周期，以三种方式中的至少一种来修改问题：类别定义改变、要标注的例子的分布改变、或者输入空间改变。问题的这些快速和定向的修订不同于传统机器学习。在传统机器学习中，分布通常是不变的(固定训练集上的特征的优化)。即使在主动学习论文中，进展是在固定分布上测量的：重点在于减少标记的数量以在固定分布上实现给定的误差率，而不是探索和发现分布。真实周期(或者修订)通常花费数月。相比而言，用于具有单一一天之内的数十或者数百周期的能力，从根本上改变分类器构建的效率。这种周期影响是混合的。例如，当一个分类器作为一个周期的结果而变得更佳时，其在下一个周期发现正例或伪正例方面变得更佳。

在本文所描述的系统中，循环可分为三类：主动标注探索(ALE)、主动特征化和字典改进。首先，在前一节已讨论了ALE。主动特征化是出于允许分类器在正例(相应地反例)和伪正例(相应地伪反例)之间进行区分的目的，生成特征的活动。它近乎于固化“色盲”的分类器。主动特征化是下一节的目标。最后形式的循环特定于概念的定义。本文将概念定义成一组词语或者字典，其中当这些词语被视作为一个组时，它们定义一个概念(例如，通过“本田”、“福特”、“标致”等等之类的词语列表，来定义汽车品牌的概念)。字典改进的循环源自于操作者给出正例和反例，计算通过这些例子来提供概念泛化候选者。随后，操作者可以校正该泛化(通过剔除词语或者增加新词语)等等。在后面的章节中将描述字典改进循环。

每一个循环需要大量的计算，接着是来自于操作者的有针对性的语义输入。从计算的观点来看，这可能是不高效的，但从操作者的观点来看，这是高效的。操作者只需要在系统没有进行适当地泛化时进行工作。对整体体系结构(主动标注和主动特征化)进行组织，以便早期地显露这些失败。

3.动机

可访问性开拓了可以写分类器的人的数量。但是，这是不足够的。某种“魔力”是必要的，以产生传染式的采用。当前的机器学习工具是由工程师为工程人员所设计的。它们没有魔力。本节是关于通过仔细地设计UX，来增加构建分类器的动机。

对于大部分人而言，机器学习是复杂的和神秘的。构建用于允许没有机器学习知识的操作者来教导机器学习系统执行识别和概要化任务的用户界面是一项挑战。下面描述了简单的UX原理，其设计为使系统是可理解和值得信任的：

●透明性：系统的状态是操作者可访问的，并可直接执行的(推论：没有隐藏的状态/变量)。

●响应性：每一个操作者动作都产生即时和可视效果。

●进展：始终存在从当前状态向期望状态移动得更靠近的清晰动作。

透明性原则使系统少些神秘和危险。响应性原则允许用户具有关于他们的动作的即时反馈，并了解他们动作的“衍生物”。进展原则识别用于遵循的以达到期望状态的方向。

为了实现学习，需要来自操作者的标记和特征。如果这些标记和/或特征改变系统的状态，则第一原则隐含着这些标记和特征应当是可访问和可编辑的。这具有几个含义：

●可以观看和编辑由操作者输入的标记。撤消是一项平凡的操作。

●可以观看和编辑由操作者输入的特征。撤消是一项平凡的操作。

●系统生成的标记和特征是高度不鼓励的。它们会损坏透明性。

●系统的执行应当是独立于输入标记或特征的顺序。顺序依赖不大可能是可容易观看和执行的。

●相同的标记和特征集合应当始终产生相同的结果。学习是一项半确定性的功能。如果学习算法对于特征的稍微改变敏感，则多少违反了第一原则(操作者可能不能够区分输入变量)。

●数据应当是“经处理的”。例如，并不期望网页中的链接具有能够改变系统的行为的悬挂指针(当这些链接过期时)。

第一原则会偶尔违反，但希望这不会影响系统中的操作者的信任。例如，某些特征可以自动地提供成系统服务，类似于同义、拼写错误、点击图等等。可冻结这些功能，但可能更佳的是冻结它们的语义，使这些特征定期地和透明地更新(具有可预测的很小成本)。如果分类器学习到依赖于特征的语义含义，则该特征的定期更新将改善该分类器。令人惊讶的是，甚至可以在系统中引入伪噪声，以推导出机器学习只提供统计保证(而非单概要保证)的概念。作为结果的非决定论并不影响整体性能，但其阻止新手用户进行过度训练。

响应性原则允许用户快速地学习到如何操作该系统(反馈)。此外，其还通过将动作转换成进展来产生奖励。每一个标记和每一个特征应当产生明显更佳的分类器。这由于三种原因而变得困难：在每一次动作之后对分类器进行再训练是高成本的。利用每一个新分类器对所有条目进行重新评分甚至是更加高成本的。最后，对于分类器显示可视和统计的显著改善，可能需要很多的操作者干预。如果探索显著地改变了分布，则全局度量可能以不可预测方式被影响。这些挑战与再训练和重新评分应当是透明的事实混合在一起。在不具有无限的资源的情况下，设计原则的即时性和可见性方面将做出让步(例如，通过不是对每一个操作者输入都进行再训练)。这可以通过以下方式来缓解：增加专用于训练和评分的资源数量，按照定期和频繁的间隔(例如，每50个标记)来进行再训练，以及利用部分评分(在ALE算法中，查询/过滤在无需等待每一个条目都要进行评分的情况下返回)。勿庸置疑，通过增加资源数量(计算能力)和精明管理(部分计算)，最佳地解决响应性原则。

a.误差分类

进展原则隐含着操作者始终知道何时工作完成，以及怎样做能使系统变得更好。这两件事件中的任何一件都不是简单的。何时应当停止改善分类器？如何知道怎样来改善分类器？为了帮助回答该问题，将由系统产生的误差分类到三个桶中：

●模糊误差：对于其标注者不能同意该标记是什么的误差。

●色盲误差：对于其系统不具有必需的输入信息来区分概要与属于错误类别的其它概要的误差。

●无知误差：对于其系统具有用于区分概要与错误类别的概要的输入信息，但不具有能够学习输入和概要类别之间的关系的足够的标记信息的误差。

这种误差的分类假定系统具有学习问题的容量，并进行适当地正则化。这种假定并不约束用户界面。如果系统不具有学习该问题的容量，则将具有以下类型的误差：

●低容量误差：对于其系统具有用于进行正确地分类所需的输入和所需的标记，但由于低容量而不能这么做的误差。

由于可以通过增加优质特征来简化学习问题，并且对于大部分机器学习算法而言增加特征增加容量，因此无需关注于这种情况。因此，仅可能由于特征限制而遇到这种误差，这使得其成为“色盲”误差。相反，可能存在容量太高的情况。在该情况下，症状会是在甚至增加了很大数量的标记之后，仍观察到很大数量的“无知误差”。

机器学习算法的选择、特征的表达力以及自动正则化的质量，影响要花费多长时间来学习，以及什么是系统可以实现的最佳结果。但是，可以在无需重新设计用户界面的情况下，对这些进行修改和改善。

误差分类帮助我们解决进展原则，例如，第一类型的误差(模糊)建议期望的状态：如果大部分的误差落入到“模糊误差”分类中，则操作者来完成。系统具有很小的希望能超越操作者。如果大部分的误差是由于色盲或者无知，则操作者知道怎么做：通过增加用于区分正例与伪正例或者用于区分反例与伪反例的特征，来修正色盲误差。可以设计一个界面来实现该工作(下一章节)。通过增加标记来修正无知误差。在任何时间点，系统可以建议应当解决什么类型的误差以实现最大效率。如果学习算法的训练和测试误差曲线是闭合的，则需要更多的特征。否则，更多的标记将是更有效的。

b.不变性

由于从目前状态到期望状态的路径是明确无误地清晰，因此应当保证进展是始终向前。这应当获得操作者的信任。需要一些预防措施。一旦对分类器进行了训练，则其可以成为特征。一旦其成为特征，则不允许将其作为更大模型的一部分来再训练。将特征作为更大分类器的一部分来再训练，可能具有一些负面后果：首先，其可能改变该特征的语义含义。这可能造成操作者混淆和关于其它特征的向后进展。其次，与更大分类器上可用的标记的数量相比，在该特征被训练时它的容量可能更高。这种非预期的容量注入可能造成向后退步。机器学习专家可能提出从机器学习立场来看，冻结这些参数可能是次优的。但是，如本文所描述的，系统稳定性和可预测性胜过最优性。

可以利用度量，对进展进行测量。例如，由分类器发现的正例的数量乘以查准率，可以产生对由系统达到的正例数量的估计。该度量与查全率成正比。在边界上做出的每一标记的查准率进展(例如，具有是X的概率在0.25和0.75之间的所有概要)是对功效的感兴趣的测量。

动机源自于魔力。魔力源自于系统产生三个事件：

●同理心：操作者应当理解由系统产生的误差。阻止系统生成的标记和特征(例如，“词语包”)，保持系统是可解释的。色盲误差应当使得操作者急切地提供新特征。无知误差应当使得操作者急切地提供更多的标记。系统误差应当如有用而受到欢迎。透明性、响应性和进展原则全部都贡献于使系统表现为天才学者。

●惊讶：系统应当通过推动其已被教示的边界来使操作者留下印象。其误差应当对丢失的特征/概念进行放大。其针对标记的请求应当挑战操作者发现未预料到的示例类型，并对类别概念进行重新定义。惊讶的能力来自于：1)对概念特征的精简；2)对非常大数据集进行评分。

●效率：随着系统针对每一项操作者输入进行特别地计算，分类器应当非常快速地做出进展。

在具有可访问性、效率和魔力的情况下，构建分类器将产生价值和惊奇二者。这将允许规模构建分类器和概要器。

IV.主动特征化

A.特征化

机器学习中的通用活动是搜索正确的特征。人们通常以自组织方式来进行该动作：经由编程或者对数据进行处理来增加特征，开始一个完全独立的过程以关于修改的数据再训练系统，随后查看误差等等。通常，它们中没有任何一个集成在系统中，其中可以浏览误差，并在无需退出应用的情况下，对特征进行共享和搜索。如本文所描述的，主动特征化实现交互式特征生成、编辑和改进。

用于帮助用户选择特征以合适地调整系统的性能的一些方法，自动地选择特征(例如，词语包)或者从多个预先存在的特征中进行选择(模型选择、特征选择等等)。主动特征化鼓励用户交互式地生成有用的特征，并将机器学习算法的复杂度保持为最小。其想法是：与通过增加机器语言算法中的复杂度和特征选择来避免误差相比，通过增加特征和标记来交互式地修正误差要更好。复杂的学习算法和很大数量的特征很可能在初始阶段能很好地工作，但其可能快速地向实践者留下复杂系统(其中没有可以提高的明显决定)；在该情况下，去除误差是令人望而却步的困难。相比而言，允许用户增加特征和标记并同时依赖于简单的学习算法的交互式循环，可产生更加可控制的系统。当用户已贡献每一个标记和每一个特征时，误差可变得更加清晰和容易进行修正(通过生成/编辑/改进特征或者增加标记)。

如本文所描述的，特征可源自于：1)预先存在的系统特征；2)在系统上由其它用户生成的预先存在的特征；3)由用户联机生成的特征。对于情形3)而言，区分两种类型：3a)本身是使用主动标注来交互式构建的分类器和实体提取器的特征；3b)通过输入用于捕捉“概念”的词语列表(其还被称为字典)来生成的词语特征。例如，月份列表(一月、二月、…)捕捉到“月份”的概念。字典中的词语一起构成特征，其中通过计算文档和给定的字典之间的统计来使用该特征(字典中的多少词语出现在该文档中、字典中的多少不同词语出现在该文档中、等等)。

在一个方面，集成的主动学习系统包括浏览部件、训练部件、评分部件和用户操作的特征生成部件。集成的主动学习系统可以包括一个或多个其它方面，诸如，当可搜索特征是在集成的主动学习系统中生成的分类器时，通过标记来指导针对特征的搜索，分类器评分并由操作者进行验证，对分类误差进行组织并显示以建议和修正分类特征盲点，或者由多个操作者生成和共享特征，并存储在公共可访问的系统中。

在另一个方面，集成的系统包括浏览部件、训练部件、评分部件和基于用户提供的字典的特征生成部件。该集成的系统可以包括一个或多个其它方面，诸如，用于特征字典的参数数量独立于字典中的词语的数量，或者用户可以指定这些参数是通用于字典中的所有词语，还是个别地针对字典中的各个词语。

通过设计，本文所描述的接口对于使用了哪种学习算法是不可知论的。在本章节中，将讨论特征的生成。

考虑输入空间D。对于每一个数据项d∈D，从输出空间O中计算分类值y。为此，使用分类函数g，其将点d∈D和参数空间W的参数向量w映射到向量y∈O。将这些函数的空间表示成G：

G：D×W→O

g:d,w→g(d,w)＝y

例如，数据空间可以是网页的空间，参数空间W可以是由机器学习算法计算的真实值的向量，以及输出空间O可以是0和1之间的数，其表示各个网页成为期望的类别的概率。使用这种形式化的一个问题在于空间D可能非常复杂，将DxW映射到O的函数集合G可能太大以至于不是能通过少许的标注例子来可训练的。例如，如果d是被截短到至多100K词语的网页，则给定至多10M词语的字典，输入空间的维度可以仍然是10¹²。为了简化该问题，将空间D投影到较少维度空间I，本文称之为“特征空间”。投影集合表示为F。在参数的训练期间，对投影f∈F:D→I进行修正。现在，可以将可学习函数从G限制到空间G’，其中G’检验：

G^{'} (f, h) = {g &Element; G | &Exists; w &Element; W, g (., w) = h (f (.), w)}

其中，h是将特征空间和参数向量映射到输出的函数。函数空间H:I×W→O通过学习算法来确定。对由F所引起的空间I和可学习函数空间H进行选择，以使参数w的学习更容易，并且需要尽可能少的例子。例如，对于网页分类来说，特征函数f可以是针对用于该分类任务的k个最相关项(例如，k＝1000)，来提取通过逆文档频率(tf*idf)来归一化的词频(termfrequency)f_i。换言之，给定网页的数据d，则特征化函数计算特征向量x＝f(d)＝(f₀,f₁,...,f_k)，其中f_i是项i在文档d中出现的归一化数量，并且f₀＝1。分类器可以使用逻辑回归来计算分类函数：

h(x,w)＝logistic(w^Tx)

一旦定义了f和h，可以利用训练例子集合(x_j,l_j)，使用传统机器学习算法来估计参数w，其中，x_j＝f(d_i)，以及l_j是相应的第j个特征化例子和训练集中的其标记。这里感兴趣的是下面的场景：允许构建分类器的操作者贡献标记l和特征函数f二者。图7示出了将分类函数710表示成特征化函数f(项712)和函数h(项714)的组合(其是可训练的(项716))的示例性信息流700。操作者可以输入特征718和标记720二者，以便影响分类函数710。

在先前的章节中，将主动标注讨论成用于探索和提高分类空间的过程。下面将讨论主动标注的输入侧等同物：“主动特征化”。

B.色盲

大量的文献都涉及特征的自动选择。其有时被称为“特征选择”。自动特征选择的隐含目标是提高考虑到训练集的泛化。如本文所描述的目标是不同的：向操作者提供用于贡献等同于标记的特征的手段。这遵循上面所描述的原则，人应当贡献语义含义，而计算机应当提供规模化。在先前的章节中，区分三种类型的误差：模糊、无知和色盲。模糊误差是修正之外的(它们源自于操作者或者问题的内在噪声)。通过增加标记来修正无知误差。通过使用“颜色过滤器”或者遵循机器学习术语，通过增加允许系统“看到”一种类别的成员和不同类别的成员之间的差别的特征，来修正色盲误差。

用于特征化的接口可以是特定于问题的。例如，特征可以是图像识别中的像素的函数、查询分类中的词语的函数、或者语音识别中的倒谱系数的函数。不需要操作者理解像素、倒谱或者词语包来构建分类器。但需要有人建立问题。因此，区分两种类型的用户：

●工程人员：该用户可以编程，并且知道机器学习的基本原理。工程人员负责做下面四件事情：

ο将数据上传到系统。

ο提供用于将数据转换成训练算法可以消费的一组特征的通用特征化器。

ο提供用于将数据转换成可以被系统显示的内容的视觉化器。

ο选择训练算法并设置其超参数(如果需要的话)。

●操作者：该用户不具有工程或者机器学习的背景。操作者负责生成和训练分类器和概要器。

一旦工程人员已设置了问题，操作者就可以构建多个分类器和概要器。在开始时，新分类器的输入是由工程人员或系统所提供的通用特征。一旦一些操作者已建立和训练了一些分类器，可以将它们冻结成特征。如上面所描述的，特征是不变的。随后，这些新特征可用于输入、可用于构建更高层级的分类器，并因此生成生态系统。

操作者可以通过选择几个特征，随后转到ALE算法来增加标记，来构建分类器。事实上，很多机器学习操作中的系统来自于固定的特征集。但是，对于具有不均衡分布的大数据而言，不知道将需要什么特征的先验知识。针对新特征的需求可通过探索来显现自身。例如，当构建烹饪食谱分类器时，拥有用于识别在非洲食谱中发现的成分的特征可以是有用的。操作者可能不知道非洲食谱以及它们的特定成分的存在，直到通过探索发现它们为止。当构建汽车检测器时，将车轮(或者圆形)检测器作为特征将使分段问题变得容易很多。操作者可以不知道问题在不具有额外特征的情况下有多难，直到她尝试构建分类器为止。为了解决这种限制，操作者应当具有用于根据需要来增加特征的灵活性。在主动特征化中，操作者检查由分类器产生的误差，以及搜索用于使分类器能够容易地把正例中的部分跟伪正例区分开来，或者相反地，把反例中的部分跟伪反例区分开来的特征。换言之，操作者在分类器的部分上寻找“色盲”。一旦已识别出色盲，操作者就可以聚焦于生成特征来提供“颜色过滤器”，以便治愈该盲。

主动特征化过程是循环，在该过程中，操作者检查误差，生成特征和/或编辑/改进特征，对系统进行再训练，以及对标注的例子进行重新评分以用于下一次迭代。但是，生成新特征通常需要新标记。所以主动特征化过程自身嵌入在一个大循环中，其涉及主动特征化和ALE二者，本文称之为RAFALE(重复主动特征化主动标注探索)循环。在表2中对其进行了概括：

表2RAFALE(重复主动特征化主动标注探索)循环

为了生成特征，操作者具有3个选项：1)寻找系统特征或者由其它操作者产生的特征(使用搜索引擎)；2)生成定制的分类器来实现期望的特征；或者3)生成特定于域的特征。第一选项利用社区的能力。第二选项利用使用集成工具来快速生成分类器的能力。该能力通常是不可用的，这是由于标注、训练、评分和特征化典型地是使用不同的工具并通常由不同的人来执行的。第三选项依赖于域。下面将描述用于针对包含词语列表的条目、输入特定于域的特征的界面。

C.词语和字典

在机器学习的很多应用中，基本特征是词语，其可以包括单个词语、词语的原始版本(例如，已删除表示复数、过去时态等等的词形变化的词语)以及n元词(连续词语或词干序列)。通常，选择的表示是词语包。在该表示中，特征基于在某种归一化(IDF：逆文档频率)下的文档中的各个词语的频率(TF：词频)。尽管可以利用这些特征来获得良好结果，然而它们缺少表达和泛化成概念的能力。例如，尽管可以计数文档中的本田和丰田的频率，然而优选的是具有用于泛化成所有汽车品牌的特征。

下面将描述用于交互式地构建表示概念的字典的工具，以便使用成进行分类或实体提取的特征。作为主动特征化循环的一部分，交互式地生成概念以解决由机器学习算法所产生的误差。

在本节中，假定数据库中的条目是由词语构成的文档。然而，如本文所描述的文档和字典的概念并不限于词语的使用，其可以包括其它类型的数据。此外，还可以假定位于文档之内的词语不具有相互关系(词语包模型)，以及将TF*IDF向量表示使用成基本特征向量。在引入字典的概念之前，需要清晰地描述这种表示。

假定C是数据库中的文档的集合，T是与要建立的分类器相关的词语的集合。例如，T可以是在语料库C中出现的所有词语的集合。对于每一个文档d和词语t，可以计算词频tf(t,d)，其是词语t在根据该文档的长度所划分的d中出现的数量。直觉上，词语计数表示词语的语义空间中的方向。其根据文档的长度来归一化，以便针对冗长性是不变的。所有词语并不携带相同量的信息。具体而言，通过下式来给出语句“词语t出现在文档d中”所传输的比特的数量：

i d f (t, C) = l o g \frac{| C |}{| {d &Element; C : t &Element; d} |}

其中，|C|是C的基数，|{d∈C:t∈d}|是词语t出现的文档的数量。该数量还被称为逆文档频率。对于每一个文档d，文档d的tf*idf特征向量表示被定义成：

x(d)＝(tf(t,d)*idf(t,C))_t∈T

其具有两个有用的属性：文档的长度是不变的，每一个词语特征的变化与其信息内容成比例。表3概括了如何来计算tf*idf表示：

表3：各个文档中的各个词语的计数

通过将计数除以文档长度(最后一列)，并将结果乘以逆文档频率(最后一行)，来计算tf*idf值。作为结果的行向量是各个文档的特征表示。

如果逻辑回归用于分类，则期望对权重进行正则化，而不对输入进行重新调整以调整它们的变化。这是由于在词语空间中，问题是非常高维的，而只存在很少的标记。对于逻辑回归而言，分类函数是：

y^{p} = h (x^{p}, w) = \log i s t i c (\underset{i}{Σ} w_{i} {x_{i}}^{p} + w_{0})

其中，x^p是概要p的特征表示，y^p是分类器的输出，i是T中的词语上的索引。目标函数是：

E (w) = \underset{p}{Σ} L o g L o s s (\log i s t i c (\underset{i}{Σ} w_{i} x_{i} + w_{0}), l^{p}) + λ | w |^{2}

其中，l^p是用于概要p的标记，以及λ是正则化参数。应当认识到，|T|可以比标记的数量大几个数量级。正则化矩阵可以是|w|²或|w|。如果不存在正则化矩阵(即，λ＝0)，则在训练期间，可以将idf归一化吸收到w中。

如果给定字典中的每一个词都给出其自己的权重，则系统变得更等同于词语包。其理念在于，操作者可以通过指定用于捕捉语义含义的特征，来向分类器传输价值无法衡量的信息。允许操作者选出小型组中的词语，以及个别小型组可以仍然具有共享的权重，这对于额外的正则化约束是重要的。如果字典中的所有词语都共享相同的参数，则也共享它们的语义。

例如，当构建用于汽车的分类器时，特征可以是所有汽车品牌名称的字典，诸如{“丰田”、“福特”、“标致”、…}。特征化的另一种解释是操作者“联系”模型的参数。设想仍然使用tf*idf表示，但用于字典{“丰田”、“福特”、“标致”、…}中的词语的参数联系到一个公共值。该泛化值是直接的：如果字典包含稀有汽车品牌(例如，Maserati)，则分类器可以在关于该汽车品牌的文档上很好地执行(即使训练中的标注的文档没有做出针对该品牌的汽车的任何引用)。例如，如果词语“本田”和“Maserati”均出现在汽车品牌字典中，并且如果“本田”出现在很多训练例子中，则系统将能够推广到“Maserati”(即使在训练集中没有出现“Maserati”的例子)。

可以具有一种系统，该系统处于具有字典中的每一个词语的权重，以及针对整个字典的单个权重之间。这通过具有每一词语的权重，但通过利用正则化约束来限制字典中的权重来实现。只要输入了字典，相应的权重具有公共的共享值(很多梯度下降学习算法容易推广到权重共享概念)。期望进行词频贡献的idf缩放，这是由于携带较少信息的词语不应当具有在共享权重的值上的相等加权。在缩放之后，所有参数w_j贡献是可比较的。可以放松权重共享约束，可以类似地推导权重组。举一个例子，可以将一组权重限制于靠近它们的平均值。在该情况下，可以使用正则化矩阵来将该组权重联系到它们的平均值，使得字典中的词语的权重被约束为不与它们的平均值偏离太多。一种示例性正则化约束可以具有形式：

γ \underset{c &Element; E}{Σ} \underset{j &Element; J_{c}}{Σ} | w_{j} - \overset{&OverBar;}{w_{J_{c}}} |^{2}

其中，E是字典集合，J_c是用于字典c中的词语的索引集合，是针对由J_c索引的词语的参数的平均值，γ是正则化参数。在本设置中，通过正则化约束来联系与公共字典相对应的权重。对于较大值的γ，上面的约束严格地强制近似相等(其是相等的权重共享)，或者等同于具有每一个字典的一个权重。在所有可能中，正则化矩阵γ将大于λ，这是由于由操作者所传输的现有知识比现有知识更强，其中大部分w_i很小。

为了将每一个权重保持在可比较的尺度上，可以在应用正则化约束之前，根据文档频率或者字典大小，对针对各个字典的权重进行缩放。实质上，在先前的例子中，通过正则化约束，这允许词语“本田”将其知识转换到词语“Maserati”上，但是如果存在足够的“Maserati”数据来以不同的方向拖拉权重，则其仍然允许词语“Maserati”具有不同的权重。

D.交互式概念编辑(主动概念化)

举一个生成分类器的例子，假定目标是生成用于“主页”的分类器：

●正例：个人页面、社交媒体页面、学术页面等等

●反例：搜索结果、目录、事件、讣告、公司、商业页面等等

●模糊：虚构的人、逝去的名人、简历等等。

可以以该顺序来生成字典(在建立工具之前，其很难进行猜测)：

●主页：[“主页”、“Bio”、“简历”、“习惯”、“Facebook”等等]

●联系信息：[“联系信息”、“地址”、“电话”、“电子邮箱”等等]

●名字：[“John”、“Steven”等等]

●姓氏：[“Smith”、“Dupont等等]

●搜索/目录：[“搜索”、“登陆”、“注册”等等]

●讣告：[“讣告”、“离世”、“死亡”、“心爱的”等等]

前四个字典有助于发现正例(删除伪反例)。接着的两个减少伪正例的数量。该过程是高度交互式的。在不构建分类器的情况下，很难知道哪个字典是有用的。用户可以决定是生成用于讣告的分类器，还是联机生成用于事件的分类器。该过程是递归的。联机生成的特征/分类器不需要是优异的。为了有用，它们仅仅需要优于偶然性，并带来新信息。

1.问题

●如果字典的数量很大，则可以认为特征化类似于在传统“专家系统”和旧风格的“AI”中生成规则和期望。然而，有三件事件需要进行考虑：

ο首先，字典仅仅是特征或者过滤器。如何对他们进行组合则完全留给机器学习算法。从用户的观点来看，不存在复杂性的激增。特征化任务仅仅是向系统提供用于区分正例与伪正例或者反例与伪反例的手段。增加第一或者第n个字典的复杂度是相同的。操作者提供传感器，而不是规则。

ο高效和低效地构建分类器之间的差别，可能来自于依据语义含义来保持字典“干净”。例如，在上面的主页示例中，坏的理念是将主页线索的字典与检测页面中是否存在地址的字典进行混合。这将减少语义合成性。尽管向第一字典增加一些地址词语比不具有地址字典更佳，但针对两种语义含义而具有两个字典是远远更佳的。其允许系统对它们的影响进行差别化加权，并且可以使调试和特征字典的重用更为容易。“传感器”应当尽可能是正交和纯粹的。维持干净的字典还可以使它们更适合于后续的重用。纯粹的字典是其它人更容易理解的，并且更可能有助于其它分类问题。

ο优化是非参数的。这意味着通过交叉验证，自动地调整系统的容量以匹配可用数据的量。在具有相同数量的数据的情况下，系统应当如基于词语包的当前在用的系统一样好地执行。由特征提供的额外信息会非常有用(如果其省去操作者输入数千条的标记)。

●对于使用词语包的任何系统来说，字典编辑可以是有用的。当词语之间的关系很难进行提取时(例如，查询、广告文本、用户产品描述或者自由流文本)，字典编辑可很好地工作于数据。对于具有概要结构的文档(例如，食谱、工作描述、产品和论坛)来说，位置信息和词语之间的关系是重要的。这是下一章节的内容。

●输入字典是一项令人厌烦的任务。例如，先前例子中的名字和姓氏的字典可以具有很多条目。针对从freebase中提取的烹饪成分的字典，在本文的撰写时已具有1,709种成分。幸运的是，输入字典的过程可以自动化。这是下一子节的内容。

在一个方面，集成的系统包括：具有用于显示训练概要的手段的部件、训练部件、评分部件和字典编辑部件。在主动特征化循环中使用这四个部件。字典编辑部件包含交互式循环，以允许操作者编辑和改进以词语列表或者n元词组为特性的概念。

在另一个方面，提供了字典特征，在该特征中，字典中的每一个词语或n元词具有其自己的权重。可以根据频率和字典大小的函数，对字典的权重进行重新调整。重新调整的权重通过正则化约束来联系，其将具有较少训练数据的词语的权重，拉向由具有更多训练数据的词语所确定的缺省值。

在另一个方面，提供了用于构造分类器的特征或实体提取器的字典接口。该接口允许通过提供较小列表的正例或反例词语或n元词例子来交互式地指定由较大列表的词语或n元词定义的概念。在每一次迭代处，使用算法的集合或者通过使用输入进行编辑，来自动地扩充概念列表。

在另一个方面，提供了用于构造分类器的特征或实体提取器的字典接口。每一个特征由词语或n元词列表来组成。该接口允许操作者指定关于如何计算该特征的选项。在验证集和预观看的基础上，计算各个选项替代者的泛化效果。

2.字典生成

可以将字典视作为概念。作为概念，其可以被泛化。当操作者敲入针对字典的一些正例时，系统可以提供针对可能的泛化的建议。如果该泛化太积极，则操作者可以通过增加反例来提供反馈。这成为交互式过程，其中操作者提供正例和反例来指导系统朝向目标概念的正确泛化。这遵循上面所描述的哲理：操作者提供语义含义，而系统提供规模计算来改进该含义。本章节划分成两个部分：用于主动概念化的用户接口和用于概念泛化的算法的集合。

a.主动概念化接口(ACI)

接口的目标是帮助操作者向系统传输概念以生成字典。字典生成和编辑可以在反馈环中完成，其中在反馈环中，用户提供正例列表。图8示出了适合于和主动概念化和字典编辑一起使用的示例性界面800。当操作者点击刷新按钮822时，系统生成建议集810，使得每一个建议集810是意味着将由用户输入的词语隐含的概念进行泛化的新词语列表。每一个建议集810是使用不同的算法来生成的。随后，用户可以增加更多的词语作为正例816或者反例818(通过敲入它们，或者通过从提议列表中点击或拖拽它们)。

可以通过点击相应的增加按钮814，将来自于建议集810中的词语增加到工作集812中。将建议集810中的、被点击上或被选择的词语增加到正例816中。将在工作集812中选择的词语增加到反例集818中。此外，还可以使用用于增加正例816和反例818的其它方法，诸如，点击建议集词语810来增加正例，以及shift-点击建议集词语810来增加反例。对于较大集合来说，操作者可以将整个建议集810都复制到工作集812。对于每一次编辑，都重新计算建议集810。点击完成按钮820，将提交正例816和工作集812的并集来作为新字典。替代地，点击清除按钮824来清空来自于工作集812中的词语。

字典编辑界面可以呈现用于约束如何将它们使用成特征的机器学习选项(例如，复选框、阈值)。例如，字典界面可以具有用于以下方面的复选框或对话框：

●用于指示每一个词语是否具有其自己的可训练参数的标志(与用于整个字典的一个参数相对照)，

●使特征值是数量的函数(该字典特征可以具有0或1值(二进制))或者是字典词频的预定函数的标志或选项，

●用于指示词频是否归一化(例如，乘以逆词频IDF的函数)的标志，

●正则化阈值，其建议在字典的权重之间联系的程度，以及

●青睐于差异性的标志或选项：与多次出现的相同词相比，在文档中出现的不同词产生更高的特征值。

字典选项界面可以预览每一个选项的泛化效果(通过在具有或者不具有该选项的情况下，对分类器或实体提取器进行训练，并通过测量其在验证集上的性能)。

当操作者完成时，将正例集和工作集的并集保存成新字典。该界面是非常交互式的，其在于：系统向操作者提供关于其将什么理解成概念的即时反馈。操作者可以做出反应，并改进该系统的解释。

存在很多方式来生成根据词语列表捕捉的有效概念。一些观点是：

●用户可以通过只敲入一些正例，以及可选地敲入一些反例，来生成根据较长的词语列表所捕捉的概念。

●概念编辑是可能经历几次改进的交互式过程。

●建议集可以具有多个性质。例如，一个方面来自于预先存在的字典的集合(基于在万维网或者诸如Freebase之类的数据库中发现的表)。另一个方面来自于基于较大的文献数据库而从聚类词从自动导出的语义概念。第三方面来自于分析(查询、URL)对上的点击图(在相同的页面上产生点击的查询很可能是相关的，并且它们的词语很可能是在相关的概念中)。即使建议集具有非常不同的来源，它们也可以共享用于概念编辑的共同界面。下面将更全面地描述用于主动概念化的一些算法。

b.主动概念化算法

可以使用ACI来使操作者能够与不同的主动概念化算法进行交互。例如：

●知识基础：Freebase和Yago是包含很多人类输入的字典的知识数据库的例子。针对包含正例和排除反例，可以对每一个人类输入的字典进行测试。匹配的字典是建议集。

●点击图：该图是查询和网页之间的二分图，其中边缘意味着在提交了相应的查询之后，由用户点击了特定的网页。这引出查询上的拓扑，以及推而广之，词语上的拓扑。例如，可以将一组词语作为查询来查找。在这些查询上的点击历史引出相关联的网页上的点击的概率分布(通过沿着针对查询的图的边缘)。随后，可以引出关于已产生在这些页面上的点击的查询的概率。可以将引出的分布的顶部(最高概率)查询作为字典建议来使用。

●链接图：超链接图通过嵌入在它们的HTML代码中的超链接，来使文档彼此连接起来。这提供了可以以与所提出的点击图技术相类似的方式来开发的另一种拓扑。

●万维网表：对在万维网上发现的表(或者表的列或行)的分析，可以提供具有语义含义的字典列表。可以使用类似于Freebase的算法来建议字典。

●语义表示：分类器的内部表示引出关于英语单词的拓扑。在该拓扑

中，靠近正例集并且还远离反例集的词语是用于建议集的候选者。

这些算法中的每一种算法提供不同形式的泛化。幸运的是，操作者可以使用公共界面来与所有这些交界。ACI允许在具有相对较少的干预的情况下，操作者输入由大字典所实现的概念。

3.字典平滑

使用字典来定义分类器的一个问题在于，字典很可能对于在多个无关的上下文中出现的词语误触发(misfire)。例如，假定针对电影的字典是通过输入在万维网上发现的电影列表来构建的。但是，该列表包括名称为“它”的电影。名称为“它”的电影的问题是：词语“它”可能出现在数据库中的几乎每一个文档中。这显著地影响字典的用于测量存在预期概念的能力。再举一个例子，假定一个字典是针对“月份”所生成的。其对于类似“我能帮你吗(MayIhelpyou)”和“我与April共进晚餐”的语句误触发。问题在于在不正确的上下文中，词语误触发并引入误差。

这种潜在的误触发可以通过字典平滑的手段来解决。字典平滑的理念是可使用特定词语的上下文，来尝试预测字典是否应当对于该词语触发。给定词语的上下文包括紧邻着该词语之前和之后的一些数量的词语。关于“月份”字典，对于单词“May”，可以考虑贯穿整个语料库的“may”的所有实例。对于“may”的每一个实例来说，例如，可以检查在“may”之前的两个词和之后的两个词。基于这四个词语，可以关于中间的词(“may”)是否是月份来做出预测。

继续使用给定词语之前的两个词和之后的两个词的例子，假定查看语料库中的每一个可能的五单词组。假定语料库包含1亿的页面，每一页具有平均2000个词。对于每一个五单词组，可以根据其它四个上下文词来预测中间词是否是月份。这可以通过对在较大的语料库上的词语出现进行计数来实现。对于每一个词，可以对该词在其中中间词属于月份字典的五单词组中出现的次数进行计数。类似地，可以对该词在其中中间词不属于月份字典的五单词组中出现的次数进行计数。利用这些计数，可以通过只查看四个上下文词，来估计五单词组包含字典词的概率。

例如，可以预测“1998”是月份的良好预测者。所以，短语“May1998”帮助确定字典应当对于“May”的该出现触发。每一个四位数字都可以是月份的良好预测者。但是，在“我能帮你吗(MayIhelpyou)”的语句中，单词“I”可以是“may”(作为非月份)的良好预测者，但不是“二月(February)”的良好预测者，即“FebruaryIhelpyou”不是会经常出现的短语(如果真会发生的话)。

另外，可以选择不针对有问题的词语来训练系统，例如不针对单词“May”来训练系统。在该情况下，只对系统进行训练以预测不具有“may”的期望概念，并由此单词“I”将根本不对“MayIhelpyou”具有贡献，但“1998”具有贡献，这是由于在“1998”的上下文中，出现很多其它月份的例子。

描述字典平滑的另一种方式是查找词语替代能力，即，字典中的其它词是否可以替代给定的词。在文本窗(即，给定词的上下文)中，可以确定中间词是否可以被字典词中的一些词来替代性地替换。为此，可以针对每一个替代的词，使用上面所定义的计数技术或者其它语言建模技术，来检查中间词属于字典的概率估计。

例如，假定汽车品牌字典包括词语本田、丰田和福特，以及对语句“在1973年，总统福特进入办公室”进行评估。在不具有字典平滑的情况下，字典将对于“福特”误触发。但如果其它汽车品牌来替代该语句中的“福特”(例如，“总统本田”或“总统丰田”)，则可以确定在整个语料库内，短语“总统本田”和“总统丰田”不会出现，或者很少出现，并因此确定“总统X”的上下文是大可能针对汽车品牌的。从而，字典不再对于短语“总统福特”触发，这是由于在该上下文内，该字典中的其它词语不能替换“福特”。这消除了很大数量的误触发。

以下详细讨论字典平滑。对上下文和字典的概念进行定义，随后描述根据上下文来估计词语属于字典的概率。

a.上下文

给定文档a和位置p，则将词语提取函数定义为：

e:(a,p)→w

其返回文档a中处于位置p的词语。给定与p的相对位置的集合B＝(b₀,...,b_l-1)，将上下文提取函数e_B定义为：

e_B:(a,p)→e(a,p+b₀),...,e(a,p+b_l-1)

其中，e(a,p+b_r)是文档a中关于位置p处于第r个偏移b_r的词语。例如，对于B＝(-2,-1)，e_B(a,p)返回文档a中刚好在位置p之前的两个词语。如果文档a是“Thequickbrownfoxjumpsoverthelazydog”，则e_(-2,-1)(a,4)＝(brown,fox)。应当注意，对于B＝(0)，e_B＝e。

表示法：使用B＝(b₀,...,b_l-1)来表示有序列表。有序列表之间的等同性需要所有元素都是等同的以及尊重顺序。但是，在b∈B，类似于集合(b∈{b₀,...,b_l-1})来对待B。将符号e_i使用成的短形式。

给定上下文提取函数e_i，则将上下文断言(predicate)定义成：

c_{i}^{w} = (a, p) = (w &Element; e_{i} (a, p))

其意味着观察的词语w位于文档a中的位置p的上下文i之中。这种断言假定词语w在该上下文中的位置是不重要的。

类似地，定义公式

c_{i}^{w_{0}, ..., w_{l - 1}} (a, p) = ((w_{0}, ..., w_{l - 1}) = e_{i} (a, p))

以意味着观察的词语w₀,...,w_l-1(确切地)是文档a中的位置p的上下文i。为了简化计算，采取两个假定：假定上下文中的位置是不重要的，以及假定上下文中的每一个词语的存在是独立于其它词语的存在。这些假定致使：

P (c_{i}^{w_{0}, ..., w_{l - 1}} (a, p)) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p))

b.字典

将字典D＝{d₀,...,d_k-1}定义成k个词语的集合。

c.概率

给定字典D和一组m个上下文函数c_i，期望计算：

P (e (a, p) &Element; D | {c_{0}}^{o_{0}} (a, p), ..., c_{m - 1}^{o_{m - 1}} (a, p))

其是位于文档a中的位置p的词语处于字典D中的概率，给定在上下文0,...,m-1中观察到词语o₀,...,o_m-1。为了简化符号，将c_r使用成的短形式。

贝叶斯：采用上下文是独立的并且上下文中的词语是独立的贝叶斯假定，可以写出：

P(e(a,p)∈D|c₀,...,c_m-1)＝KP(c₀,...,c_m-1|e(a,p)∈D)P(e(a,p)∈D)

P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) \approx \underset{i}{Π} P (c_{i} | e (a, p) &Element; D)

其中：

P (c_{i} | e (a, p) &Element; D) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Σ} P (c_{i}^{w} (a, p) | e (a, p) &Element; D)

其中，o_r＝w₀,...,w_l-1。结果是：

P (c_{i}^{w} (a, p) | e (a, p) &Element; D) = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D)}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &Element; D)}

其中，如果断言为真，则δ(predicate)＝1，否则其为0。

可以对计数进行预计算：

C o u n t W o r d C o n t e x t (j, i) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &Element; D)

C o u n t D i c t = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &Element; D)

S u m P o s i t i n = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (t r u e)

其随后允许高效计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t (j, i)}{C o u n t D i c t}

P (e (a, p) &Element; D) = \frac{C o u n t D i c t}{S u m P o s i t i o n}

该计算是O(Σ_i|B_i|)，其中|B_i|是上下文i的大小。

为了计算K，还需要评估：

P (e (a, p) &NotElement; D | c_{0}, ..., c_{m - 1}) = K P (c_{0}, ..., c_{m} | e (a, p) &NotElement; D) P (e (a, p) &NotElement; D)

同样，使用贝叶斯：

P (c_{0}, ..., c_{m} | e (a, p) &NotElement; D) \approx \underset{i}{Π} P (c_{i} | e (a, p) &NotElement; D)

其中：

P (c_{i} | e (a, p) &NotElement; D) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P ({c_{i}}^{w} (a, p) | e (a, p) &NotElement; D)

其中，o_r＝w₀,...,w_l-1。结果是：

P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D) = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &NotElement; D)}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &NotElement; D)}

可以对计数进行预计算：

C o u n t W o r d C o n t e x t A l l (j, i) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p))

\begin{matrix} C o u n t W o r d C o n t e x t N o t (j, i) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p)) - \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D) \\ = C o u n t W o r d C o n t e x t A l l (j, i) - C o u n t W o r d C o n t e x t (j, i) \end{matrix}

应当注意，数量CountWordContextAll(j,i)独立于字典。这意味着CountWordContextNot(j,i)实际并不需要用于该字典的表(其可以联机地根据CountWordContext(j,i)来计算)。

C o u n t D i c t N o t = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &NotElement; D) = S u m P o si t i o n - C o u n t D i c t

其随后允许高效计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t N o t (j, i)}{S u m P o s i t i o n - C o u n t D i c t}

P (e (a, p) &NotElement; D) = \frac{S u m P o s i t i o n - C o u n t D i c t}{S u m P o s i t i o n}

\begin{matrix} K \\ = \frac{1}{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) P ((a, p) &Element; D) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D) P (e (a, p) &NotElement; D)} \end{matrix}

并根据此，可以计算：

\begin{matrix} P (e (a, p) &Element; D | c_{0}, ..., c_{m - 1}) = \\ \frac{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) P (e (a, p) &Element; D)}{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D) P (e (a, p) &NotElement; D)} \end{matrix}

i)处于字典词语层级的概率

可以期望的是，给定上下文，计算词语是字典的给定词语的概率：

P (e (a, p) = w_{k} | c_{0}^{o_{0}} (a, p), ..., c_{m - 1}^{o_{m - 1}} (a, p))

其中，wk是该字典中的特定词语。

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) = w_{k}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w &Element; e_{i} (a, p) a n d e (a, p) = w_{k})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) = w_{k})} \end{matrix}

其中，如果断言为真，则δ(predicate)＝1，否则其为0。

可以对计数进行预计算：

\begin{matrix} C o u n t W o r d C o n t e x t K (k, j, i) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) = w_{k}) \end{matrix}

\begin{matrix} C o u n t K (k) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) = w_{k}) \end{matrix}

S u m P o s i t i o n = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (t r u e)

其随后允许高效计算：

P (c_{0}, ..., c_{m - 1} | (a, p) = w_{k}) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t K (k, j, i)}{C o u n t K (k)}

P (e (a, p) = w_{k}) = \frac{C o u n t K (k)}{S u m P o s i t i o n}

P(e(a,p)＝w_k|c₀,...,c_m-1)＝K_kP(c₀,...,c_m-1|e(a,p)＝w_k)P(e(a,p)＝w_k)

计算K还包括评估：

P(e(a,p)≠w_k|c₀,...,c_m-1)＝K_kP(c₀,...,c_m-1|e(a,p)≠w_k)P(e(a,p)≠w_k)

同样，使用贝叶斯：

P (c_{0}, ..., c_{m} | e (a, p) &NotEqual; w_{k}) \approx \underset{i}{Π} P (c_{i} | e (a, p) &NotEqual; w_{k})

其中：

P (c_{i} | e (a, p) &NotEqual; w_{k}) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p) | e (a, p) &NotEqual; w_{k})

其中，o_r＝w₀,...,w_l-1。结果是：

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) &NotEqual; w_{k}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &NotEqual; w_{k})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p s i t i o n i n a} δ (e (a, p) &NotEqual; w_{k})} \end{matrix}

为此，需要下面的量：

\begin{matrix} C o u n t W o r d C o n t e x t K N o t (k, j, i) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p)) - \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w &Element; e_{i} (a, p) a n d e (a, p) = w_{k}) \\ = C o u n t W o r d C o n t e x t A l l (j, i) - C o u n t W o r d C o n t e x t K (k, j, i) \\ C o u n K N o t (k) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &NotEqual; w_{k}) = S u m P o s i t i o n - C o u n t K (k) \end{matrix}

应当注意，量CountWordContextAll(j,i)独立于字典。这意味着CountWordContextKNot(k,j,i)实际并不需要用于该字典的表(其可以联机地根据CountWordContextK(k,j,i)来计算)。随后，可以高效地执行下面的计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) &NotEqual; w_{k}) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t K N o t (k, j, i)}{S u m P o s i t i o n - C o u n t K (k)}

P (e (a, p) &NotEqual; w_{k}) = \frac{S u m P o s i t i o n - C o u n t K (k)}{S u m P o s i t i o n}

\begin{matrix} K_{k} \\ = \frac{1}{P (c_{0}, ..., c_{m - 1} | e (a, p) = w_{k}) P (e (a, p) = w_{k}) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotEqual; w_{k}) P (e (a, p) &NotEqual; w_{k})} \end{matrix}

ii)词语被排除在外情况下的概率

可以期望的是，给定上下文，计算词语处于减去词语w_k的字典中的概率：

P (e (a, p) &Element; D - {w_{k}} | c_{0}^{o_{0}} (a, p), ..., c_{m - 1}^{o_{m - 1}} (a, p))

其中，w_k是该字典中的特定词语。应当注意，如果e(a,p)＝w_k，则上面的概率反映该字典中的所有其它词语的概率。例如，在语句“总统福特是美国第38届总统”中，上面的概率将已利用字典中不同于“福特”的所有词语，来训练。如果字典是{“本田”、“福特”、“丰田”}，则该概率将非常低，这是由于不存在很多的“总统本田”或“总统丰田”实例。所以，该概率将正确地预测该语句中的“福特”不是汽车品牌。

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) &Element; D - {w_{k}}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D - {w_{k}})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &Element; D - {w_{k}})} \end{matrix}

其中，如果断言为真，则δ(predicate)＝1，否则其为0。

可以对计数进行预计算：

CountWordContextDictMinusK(k,j,i)

＝CountWordContext(j,i)-CountWordContextK(k,j,i)

CountDictMinusK(k)＝CountDict-CountK(k)

其随后允许高效计算：

\begin{matrix} P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D - {w_{k}}) \\ \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t D i c t M i n u s K (k, j, i)}{C o u n t D i c t - C o u n t K (k)} \end{matrix}

P (e (a, p) &Element; D - {w_{k}}) = \frac{C o u n t D i c t - C o u n t K (k)}{S u m P o s i t i o n}

P(e(a,p)∈D-{w_k}|c₀,...,c_m-1)

＝K_kP(c₀,...,c_m-1|e(a,p)∈D-{w_k})P(e(a,p)∈D-{w_k})

计算K还需要评估：

\begin{matrix} P (e (a, p) &NotElement; D - {w_{k}} | c_{0}, ..., c_{m - 1}) \\ = K_{k} P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D - {w_{k}}) P (e (a, p) &NotElement; D - {w_{k}}) \end{matrix}

同样，使用贝叶斯：

P (c_{0}, ..., c_{m} | e (a, p) &NotElement; D - {w_{k}}) \approx \underset{i}{Π} P (c_{i} | e (a, p) &NotElement; D - {w_{k}})

其中：

P (c_{i} | e (a, p) &NotElement; D - {w_{k}}) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D - {w_{k}})

其中，o_r＝w₀,...,w_l-1。结果是:

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D - {w_{k}}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &NotElement; D - {w_{k}})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &NotElement; D - {w_{k}})} \end{matrix}

为此，需要下面的量：

CountWordContextDictMinusKNot(k,j,i)

＝CountWordContextAll(j,i)-CountWordContextDictMinusK(k,j,i)

\begin{matrix} C o u n t D i c t M i n u s K N o t (t) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &NotElement; D - {w_{k}}) \\ = S u m P o s i t i o n - C o u n t D i c t M i n u s K (k) \end{matrix}

应当注意，量CountWordContextAll(j,i)独立于字典。这意味着CountWordContextDictMinusKNot(k,j,i)实际并不需要用于该字典的表(其可以联机地根据CountWordContextK(k,j,i)来计算)。随后，可以高效地执行下面的计算：

\begin{matrix} P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D - {w l k}) \\ \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t D i c t M i n u s K N o t (k, j, i)}{S u m P o s i t i o n - C o u n t D i c t M i n u s K (k)} \end{matrix}

P (e (a, p) &NotElement; D - {w_{k}}) = \frac{S u m P o s i t i o n - C o u n t D i c t M i n u s K (k)}{S u m P o s i t i o n}

\begin{matrix} K_{k} \\ = \frac{1}{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D - {w_{k}}) P (e (a, p) &Element; D - {w_{k}}) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D - {w_{k}}) P (e (a, p) &NotElement; D - {w_{k}})} \end{matrix}

4.特征完成

特征完成是字典平滑的更通用的方法。对文档进行自动分类的学习技术，根据标注的训练实例集合来推断分类器。推断出的分类器是一个函数，其使用一组输入特征(即，描述该文档的测量)，并输出类别标记。可以主要沿着两个替换路径来提高分类器的准确性，通过捕获更多的标注的训练实例，或者通过依赖更佳的特征。特征完成针对于第二方法，其目标在于促进更佳特征的设计。

特征是用于将文档的原始表示(例如，文本的字符序列、图像的像素图…)映射到分类器所依赖的中间表示(例如，给定词语的出现数量或者图像中存在特定的颜色)。大部分特征是根据关于分类器可以依赖的测量类型的简单人类直觉来构建的(例如，检测图像中的人脸的分类器可以使用皮肤颜色的存在性作为特征)。但是，将直觉转换成用于映射文档表示的函数是一项复杂的、不完美的任务。

特征完成有助于实现这种转换处理。其以由人类给出的初始特征为输入，并提供用于补充第一特征的补充特征，使得两项特征的组合更接近初始凭直觉获得的测量。为此，其依赖于很大数据集的未标注文档。未标注文档的原始表示被划分成初始特征使用的部分(表示A)和剩余部分(表示B)。给定关于未标注集合的该组配对的表示，应用学习算法以推断使用表示B，并预测关于相同文档的部分A的初始特征的输出的函数。该函数是补充特征，这是由于其行为类似于初始特征，但依赖于原始表示的补充部分(即，表示B)。初始特征和补充特征的组合更接近初始直觉，这是由于其使用文档中的初始特征实现没有管理的剩余部分来开发。此外，这两个特征的组合对于噪声是更健壮的，这是由于损坏不大可能以相同方式来影响表示A和表示B。

应当注意的是，分类器确定如何对初始特征和其补充配对物进行组合。这意味着学习算法针对用户来确定补充特征应当具有较少影响(由于初始特征已经是高质量的)，还是具有更多影响(由于初始特征是较差的质量)。

在一个方面，提供了用于构建补充特征的系统和方法。各个补充特征是根据初始特征和较大的未标注数据集合来构建的。补充特征是以原始表示中初始特征未采用的部分作为输入的函数。通过尝试根据未标注数据上的该补充表示，来预测初始特征的输出来构建补充特征。

在另一个方面，该系统和方法可以包括一个或多个额外的特征，诸如，初始特征对文本流中的各个位置处的词语或n元词(词语序列)的分离的存在性进行测量，而补充特征输入由考虑的位置周围的文本窗来构成，其中的中间词语已被去除；初始特征是在字符串上操作的规则表达式，以预测文本中的匹配位置，而补充特征输入由考虑的位置周围的文本窗来构成，其中的中间词语已被去除；或者初始特征对较大的核苷酸序列(例如，DNA)中的各个位置处的短核苷酸序列的分离的存在性进行测量，而补充特征输入由考虑的位置周围的几个核苷酸的窗来构成，其中的中间核苷酸已被去除。

下面的讨论描述用于特征完成的示例性算法。特征完成以初始特征和较大的未标注数据集来开始。补充特征是根据这些输入来构建的。一旦进行了构建，则可以结合在受监督学习设置中的初始特征，来使用该补充特征。

a.定义

●数据集是条目的集合。例如，数据集可以是网页的集合、查询的集合、词语文档的集合、分子的集合、基因的集合等等。每一个条目由其原始表示来表达。该表示是对条目做出的测量的集合。测量可以具有固定的长度(诸如，指向网页的链接的数量)，也可以具有可变的长度(诸如，表示各个词语的记号列表)，以及可能的注释(例如，粗体、斜体、表位置、元数据等等)。原始表示的目的是将与条目有关的所有信息捕获成计算机可读形式，而无需识别哪些信息是相关的或无关的先验。特征表示是原始表示的函数，其捕获与机器学习算法有关的信息，以执行关于该条目的任务(诸如，分类、提取、回归、排序等等)。通常，特征表示丢弃原始表示中的大量信息，这是由于对于机器学习算法利用较小数量的训练例子和有限的计算时间来充分执行而言，原始表示空间太过于巨大了。

●初始特征表示f是起始使用的特征表示。其使用条目的原始表示的一部分，并计算值或者向量值。值的例子可以是条目的长度、特定的子组成部分在条目中出现的次数等等。向量值可以是在条目上滑动一个窗，并计算该窗上的函数的结果。例如，对于文本窗而言，初始特征可以是：

ο表示来自给定列表中的任何词是否在该窗的中间处出现的二进制值，

ο表示在窗中存在或者不存在动词的二进制值，

ο表示存在或不存在后跟着形容词的名词的二进制值，

ο对给定词在该窗中出现的次数进行计数的整数特征，等等。

●补充特征g也是特征表示。其使用条目的原始表示的不同部分，并预测值或者向量值。其依赖于在下一章节中定义的算法来构建。

●该讨论区分条目的原始表示中的两个部分。表示A指代初始特征使用的部分。表示B指代补充特征使用的部分。应当注意，这两个部分可以重叠，也可以不重叠。

●监督学习算法使用一组输入/输出对，并预测旨在给定输入的情况下，预测输出的函数。

b.用于构建补充特征的算法

i)通用算法构建补充

该算法计算额外的特征函数g。如训练用于g的例子，其使用数据集D和函数f来生成(输入，目标)对。随后，其使用一种训练算法来训练g。结果是新特征函数g，该新的特征函数g随后可以用于补充f。

●输入：初始特征f，数据集D

●输出：补充特征g

●算法

ο将补充特征训练集P初始化为空集

ο对于D中的每一个条目i

·提取a_i(针对i的表示A)，以及

·计算初始特征的输出f(a_i)

·提取b_i(针对i的表示B)

·将(b_i,f(a_i))增加到P。该(输入，目标)对是用于函数g的训练例子

οg＝SupervisedLearningAlgorith监督学习算法(P)

ο返回g

如果特征是在滑动窗上计算的，则可以将该算法修改成：

●输入：初始特征f，数据集D

●输出：补充特征g

●算法

ο将补充特征训练集P初始化为空集

ο对于D中的每一个条目i

·针对条目中的每一个位置p

·提取a_i,p(针对通过p来索引的初始窗中的i的表示A)，以及

·计算初始特征的输出f(a_i,p)

·提取b_i,p(针对通过p来索引的上下文窗中i的表示B)

·将(b_i,p,f(a_i,p))增加到P。该(输入，目标)对是用于函数g的训练例子

οg＝SupervisedLearningAlgorithm监督学习算法(P)

ο返回g

ii)针对二进制情形的特定性

假定f是二进制特征，以及表示B是n个二进制测量的集合。这意味着对于任何条目i，f(a_i)是0或者1，而b_i可以表示成向量(b_i1，...，b_in)，其中每一个b_ij是0或1。考虑仅仅依赖于来自P中的下面的计数(N(j，α，β)，其表示P中的使得f(a_i)＝α和b_ij＝β的配对(b_i，f(a_i))的数量)的监督学习算法的类别，在该情况下，可以将补充特征构建算法重写成：

●输入：初始特征f，数据集D

●输出：补充特征g

●算法

ο将N(j，α，β)初始化成零，其中，j＝1...n，α＝0...1，β＝0...1

ο对于D中的每一个条目i

·提取a_i(针对i的表示A)，以及

·预测初始特征的输出f(a_i)

·提取b_i(针对i的表示B)

·增加N(j,f(a_i),b_ij)，其中j＝1...n

οg＝SupervisedLearningAlgorithm监督学习算法(N)

ο返回g

c.针对分类的补充特征

如本文所使用的分类是在给定输入条目的情况下，预测类别标记的任务。为此，使用监督学习算法，其中该算法可以自动地推断用于根据标注条目集合(即，针对其已由人类标注者识别正确类别的条目)，来将输入特征表示映射到类别标记的函数。给出标记条目(x,y)，其中x代表其原始表示x，y代表其标记。

下面的算法使用一组标注的条目、未标注的数据集和一组初始特征f₁...f_n。该算法补充每一个特征，并学习依赖于初始特征和其补充特征二者的分类器。

●输入：初始特征集合f₁...f_n、标注的条目集合L、未标注的数据集U

●输出：补充特征集合g₁...g_n、依赖于f₁...f_n和g₁...g_n二者的分类器C

●算法

ο对于每一个初始特征f_i，

·根据未标注的数据，定义其补充

g_i＝BuildComplementary构建补充(f_i,U)

ο将对集合P初始化为空集

ο对于L中的每一个标注的条目(x,y)

·计算初始特征和其补充特征

v(x)＝f₁(x),...,f_n(x),g₁(x)...g_n(x)

·将(v(x),y)增加到P中

οC＝SupervisedLearningAlgorithm监督学习算法(P)

ο返回g₁...g_n和C

举例而言，考虑下面的表4中的文档的集合：

表4

假定初始特征是：词语属于集合{“February”、“May”}。初始特征尝试捕获的概念是月份的概率。不幸的是，其不能在文档3和6中很好地工作，这是由于即使这两个特定的“May”的实例并不指代月份，特征将触发。因此，依赖于初始特征的任何学习算法将受到特征的“误触发”的阻碍。

为了补偿该问题，可以构建简单的补充特征。请参照上面所描述的关于窗的通用算法“构建补充”。形式上，初始表示a_i,p是中心在位置p的条目i的长度为一(单个词)的固定长度窗。此外，第二表示b_i,p也是长度为一的固定长度窗，但其中心位于p+1处的词语。本文将该窗称为“上下文”窗。

在本例子中，补充特征g尝试更佳地预测月份的概念。为了构建该特征，将非常简单的贝叶斯算法使用成用于计算g的学习算法。将函数g定义成：

g(w)≡P(f(p处的词)＝1|(p+1)处的词是w)

其中，词语w是从对g进行评估的位置p+1读取的。在该情况下，其帮助将表示b_i,p认为位于位置p周围。

应当注意，可以使用其它表示，而不是将“位于位置p+1的词语”用作针对g的输入，可以使用任何其它机器学习算法来训练g以模仿f的值。在该情况下，使用贝叶斯模型，这是由于可以给出闭合形式版本的g，并且通过给出显式的机器学习算法，来揭秘该处理。使用贝叶斯规则，可以写出：

举例而言，将针对第二文档、位置3处(w＝“24”)来计算g。查看语料库，可以推断：这是由于在语料库中存在54个词语，其中6个处于该字典之中。对于(文档1)中的May的第二实例而言，

这是由于存在字典中的词语的六个实例，并且在这些实例中的两个中，后面的词是“24”。通过实现下式来计算P(后面的词是X)：

P(字典中的词|后面的词是X)+P(非字典中的词|后面的词是X)＝1

这使得

P(后面的词是“24”)

＝P(后面的词是“24”|字典中的词)P(字典中的词)

+P(后面的词是“24”|非字典中的词)P(非字典中的词)

或者

以及最后

如果针对所有的实例进行该运算，则结果是：

文档0：P(字典中的“May”|后面的词是“18”)＝1.0

文档1：P(字典中的“May”|后面的词是“24”)＝0.6666

文档2：P(字典中的“February”|后面的词是“18”)＝1.0

文档3：P(字典中的“May”|后面的词是“Be”)＝0.5

文档4：P(字典中的“February”|后面的词是“24”)＝0.6666

文档5：P(字典中的“May”|后面的词是“I”)＝1.0

可以观察到，该补充特征是更佳的，这是由于：如果使用0.6的阈值，则将检测到文档3中的May是动词而不是月份。但其不是完美的，这是由于其不能检测到文档5中的May也是动词而不是月份。

下面是在文档的较大语料库(500,000个网页)上计算更复杂的上下文函数的例子。主函数查找一个词，如果该词属于(“January”、“February”、…、“December”)，则主函数是1，否则其是零。补充特征查看之前的两个词和之后的两个词，并使用Naive贝叶斯来计算处于该字典中的概率。为此，使用上面算法的变形，本文称之为“留一法”。在该版本中，对于特定词语使用的函数g，在除了由该词语所定义的实例之外的数据集的所有实例上进行训练。

这是有用的是，因为当一个词具有双重含义时(例如，类似May，其可以是月份或者动词)，可以仅仅利用排除其自己双重含义的实例来进行训练。双重含义的May可能潜在地污染其它月，但通常这不是一个问题，这是由于针对f＝1的不同情形的双重含义的上下文通常是不相关的。例如，如果利用排除February的所有实例但包括所有其它月(其包含May)的集合来训练g(February,.)，则类似“MayIhelpyou”的坏情形对于February模型将只有很小的损害，这是由于上下文“I”不太可能用于February(“FebruaryIhelpyou”)。

下面的表5中的列表示出了随机从数据集中取得的100个实例，并根据补充特征g的值来进行分类。在具有标题“Prob.”的列中示出了该值。接着的4列是位于位置-2、-1、+1、+2(相对于位于位置0处的May)处的“证据”。每一个证据可以计算成：

接着的列标记是“概念”值，或者该特定的出现是否的确是月份。为了评估的目的，只是手工地计算该值。检查表5中的列表显示出：初始特征将产生21％的误差率。相比而言，使用p＝0.0003的阈值的补充特征，只会具有2％的误差率。

表5

V.分段和概要化

A.段

通过结构，词语包表示忽略词语之间的所有关系。这可能是一种限制，其原因在于对信息进行排序和组合可能是有价值的。例如，将论坛网页分解成单个帖子(posts)的序列，对于发现比较两个产品的帖子可能是有用的。在词语包表示中，可以每一次有两个帖子提及出现在同一页面中的两个产品，就得到一个命中。将概要(schema)分解成单个字段，允许以字段为目标的搜索和旋转。这对于发现每一份食物低于500卡路里，并且烹饪时间低于20分钟的食谱是有用的。

为了实现这些能力，假定每一个条目包含有序的记号序列。这种基于记号的表示比词语包更丰富。记号的位置引起记号之间的排序和邻近性度量。两个记号之间的距离是它们的位置之间的绝对差值。(在本章节中，为了简化起见，假定一维拓扑。也可以是二维拓扑，但其更复杂(利用矩形来替换段))。将段定义成文档中的位置对(b，e)。第一位置b(用于开始)指向段的第一记号。第二位置e(用于结束)指向段之外的第一记号。每一个段以位于文档之中的一组相邻记号为特性。文档分段是k个不相邻段的集合(s₀,...,s_k-1)。更加确切地，通过下式来定义对n个记号的文档的可能分段的集合：

S = {s : s = (s_{0}, ... s_{k - 1}) : k \leq n, &ForAll; i &Element; 0... k - 1, s_{i} = (b_{i}, e_{i}) : 0 \leq b_{0}, b_{i} < e_{i}, e_{i} \leq b_{i + 1}, e_{k - 1} \leq n}

特征f_j(i,d)是文档d的向量函数，其是在每一个记号位置i上被定义的。将文档的特征化定义成f(d)＝(f₀(.,d),...,f_J-1(.,d))，其中J是单个特征的数量。应当注意，位置i处的特征值可取决于整个文档。特征的这种定义通常足以涵盖全局特征(在所有记号上不变)、记号特征(其在位置i处的值只取决于该位置处的记号的特征)或者网格(其将稍后在本节中介绍)。段分类器h是计算下面概率的函数：

h:d,s,w→h(f(d),s,w)

其中，d是原始数据，f(d)是记号数据的特征化，s是这些记号上的分段，w是可训练的参数向量。理想地，段分类器应当验证：

\underset{s &Element; S}{Σ} h (f (d), s, w) = 1

图9示出了街道地址的示例性分段900。图9的顶部是数据910的可视化(网页的一部分)。在其下面是相同数据的记号表示912，在之下具有街道地址分段914：s＝((4,15),(21,34),(40,53))。

街道地址分段包含被标记成“街道地址”的3段914(但是，由于页面的空间约束，没有示出第三段)。饭店名称分段将返回((0,3),(17,20),(36,39))。理想地，街道地址段分类器将针对s＝((4,15),(21,34),(40,53))返回h(f(d),s,w)＝1，而针对任何其它s值返回0。这将是目标信号，或段标记。

B.模块化和网格

Schema具有递归结构。Schema中的字段可以自身是一个Schema。例如，街道地址Schema可以由5个子Schema构成：

●街道地址

ο街道

ο城市

ο州

οZip编码

ο国家

如本文所定义的，模块化约束是用于独立于可以使用它们的上下文来构建分段器的能力。模块化的益处在于一旦构建了分段器，则其可以在底部的方式来使用成用于更高层级分段器的特征(类似于分类器的特征)。如先前所描述的，将特征约束为是不变的。这隐含着一旦构建了分段器，则在更高层级分段器之内将不进行再训练，以利用上下文信息。这起初似乎是一个严格的限制。例如，如果街道提取器知道上下文，则其将发挥更大的作用。“Smithlane,1234”是街道地址还是名字？如果低层分段器决定什么是街道以及什么不是，则高层地址分段器不大可能很好地执行。

网格：为了克服该问题，施加分段器不返回分段，而返回网格的约束。网格是各个记号的状态之间的转换图。图10示出了分段器1024的网格表示1000。对于给定的实体提取器，每一个记号1010具有三种状态：垃圾1012(实体未被检测到)、开始1014(实体的第一记号)和继续1016(实体的后续记号1010)。边缘1018是从一个记号1010到下一个记号的转换概率。分段是从文档的开始到文档的结束的最可能的路径。转换概率是记号特征窗上的卷积函数。使表示记号i的状态s₁和记号i+1的状态s₂之间的转换概率。那么

e_{s_{1}, s_{2}, i} = g (f {(d)}_{i}, w_{s_{1}, s_{2}})

其中，g是固定的可训练函数，f(d)_i是中心位于i的记号特征化窗，以及是针对各个转换s₁、s₂的可训练参数集合。如上所述，开始状态1014和继续状态1016是已检测到段的状态，状态转换边缘1018是计算转换的概率的记号特征1020的函数。在不存在其它约束的情形下，分段是优化的转换路径1022(粗实线)。

网格表示的优点在于：其允许低层分段器向高层分段器传输每一个可能分段的概率。在不存在其它约束的情形下，缺省分段是穿过该网格的优化的路径。这可以使用动态编程，在O(n)步内计算出。当高层分段器使用低层分段时，高层分段器可以输出其分段，随后通过寻找服从约束的优化转换路径来寻找优化的低层分段。例如，对于地址分段器而言，子段(街道、城市、Zip编码、州和国家)不能穿过地址边界(父约束)，并且给定的记号可以只属于这些子段中的一个(兄弟约束)。换言之，子分段器并不针对它们自己的段进行最后的决定。它们提供针对层级的每一个可能的分段的概率，在该层级之上进行决定。计算高层级分段是一项自底向上的过程。之后是字段填充通道(或者回退分段)，其中使用当前网格以及来自父辈和兄弟的约束来计算各个层级处的新分段。

对于每一个子分段器来说，可能分段的总数和它们的相应概率是对于n个记号的O(2ⁿ)。幸运的是，网格表示在O(n)空间中携带所有该信息。为了根据网格来计算特定分段的概率，可以简单地确定每一个记号处于这3个状态中的哪一个，并在沿着该网格上的相应路径时，对所有边缘进行相加。

当将网格使用成用于对高层级分段器进行训练的特征时，其成为记号特征(每一个边缘值与其左边的记号相关联)。

C.标注段

标注段会是极端枯燥乏味的。文档中的每一个词都需要一个标记。这种网格结构允许交互式段标注。网格的主要特征在于其实现了搜索服从关于状态的约束的优化路径。缺省分段来自于没有约束的情况下的优化的网格路径。这种分段可以向每一个可见记号分配缺省的标记。当相应记号处于开始或者继续状态时，可以通过使该相应记号的可视表示(例如，词语)进行高亮显示，来使标记是操作者可视的。

对可视记号(例如，词语)的边框上的每一次点击，都切换该记号的状态。开始和继续之间的区别是相当微妙的；其允许长段和两个相邻段之间的区分。这是UX挑战。一旦可视记号已被点击，则其受到约束。从未被点击的记号是无约束的。对于每一次操作者点击可视记号，都增加/改变/删除约束。其触发关于网格的动态编程优化，以便用O(n)步来寻找新产生的优化路径。这可能改变剩余的无约束记号的缺省标记。换言之，在给定操作者约束的情形下，系统与操作者一起工作以始终显示最佳的解决方案。例如，点击遗漏的地址上的任何地方，都可能触发将整个地址正确地标注成段。这是由于如果地址记号中的任何一个是地址段的一部分，则相邻记号成为地址的一部分的可能性极大地增加。如果对每一次点击都计算优化的网格路径，则记号趋向于在逻辑组中翻转(flip)。这使得标注段不太枯燥乏味，并只需要很少的手眼协调。应当注意，每一次点击都是前向进展，这是由于其导致约束增加。可以提供可视的线索，以指示哪些可视记号缺省地得到它们的值，以及哪些通过标注得到它们的值。

置信度：类似于分类标记，期望对标注准确性的重要性进行淡化。期望的是，操作者只查看具有低置信度的段或者遗漏的段，并首先对它们进行标注。感兴趣的UX挑战是：应当怎样显示置信度？

给定具有一些识别的段的文档，低置信度段应当视觉地弹出，使得操作者可以放大这些，做出决定，并在无需阅读整个文档的情况下提交新标记。这对于遗漏的段来说，甚至是更期望的。在给定的文档上，针对段的最可能候选者应当视觉地弹出，使得操作者可以放大这些，并采取适当的动作。如果不存在低置信度候选者，则操作者应当能够忽略整个文档，而无需阅读它。

显示段置信度并不是那么简单。存在O(2ⁿ)个可能的分段。在记号层级上显示置信度将会误导，页面会看起来类似盐和胡椒。例如，词语“main”的每一个或者实例都可能是遗漏地址的候选者。

通过返回到网格表示来解决该问题。缺省路径提供文档级处的路径评分。将该评分称为缺省优化路径得分(或者DOPS)。该全局评分在记号层级处没有含义。如果记号被点击，则其标记改变，并且给定该约束下的新优化路径提供不同的评分。将该新评分称为COPS(记号)，用于受约束的优化路径评分。该新评分自身在记号层级处没有含义。但是，差值

Conf(记号)＝DOPC-COPS(记号)

是翻转给定记号的标记的效果的系统估计。如果该差值接近于0，则系统并不信任其已具有正确的标记(翻转其没有效果)。应当注意，

0≤Conf(记号)≤1

这是由于路径评分是概率性的，并且当没有状态是受到约束时，DOPC是优化路径。如果评分接近于0，则系统对于相应的记号是否属于段没有自信。从UX的角度来看，置信度可以是记号层级的颜色编码，或者可以高亮显示低置信度记号，其验证Conf(记号)≤K，其中K是置信度阈值。由于标记趋向于在组中翻转，相邻的记号很可能具有相同的评分差值，所以可以向操作者指示当一个标记改变时，哪些记号将一起翻转。至少有理的是，操作者可以仅仅通过查看低置信度段(或者低置信度非段)来标注文档，并且可以只在这些段上采取动作，而无需阅读整个文档。这将明显地减少段标注成本。

利用动态编程在O(n)中来计算给定约束的优化路径。如果针对每一个记号来计算Conf(记号)，则实现将耗费O(2ⁿ)步。如果一个文档具有100,000个记号，则这将成为一个问题。幸运的是，可以在O(n)中，计算整个函数Conf(记号)。技巧是进行两个动态编程通道，每一个方向中一个，计算从当前记号到文档的每一个端的两个方向中的优化路径。在O(n)中完成这两个通道。量Conf(记号)简单地是两个半路径的评分的和。

为了寻找最可能具有段的文档，段分类器可以转变成具有下面操作的规则分类器：

h^{'} : d, w &RightArrow; \underset{&ForAll; s s . t . s &NotEqual; ()}{Σ} h (f (d), s, w) = 1 - h (f (d), (), w)

换言之，h’是包含至少一个段的所有分段的概率之和。其返回在页面上存在至少一个段的概率。

VI.段提取

段提取(AKA实体抽取或者EE)是识别文档中与给定的概念相对应的记号段的过程。举例而言，假定用户想要自动地从网页中提取地址和它们的组成部分(城市、州等等)，使得他或她能快速地在地图上查找它们。图11描述了网页1110的简化表示，其中网页1110包括连同标记1114的地址1112，以及已从该网页中提取的该地址的相应组成部分1116。

通常，用于段提取的统计方法使用训练数据来构建可以用于对文档进行解码的有限状态机(FSM)。图12中示出了用于提取地址的示例性有限状态机。节点1210、1212和1214是FSM的状态，边缘1216、1218、1220、1222、1224和1226是状态之间的转换。每一个虚线转换(1218和1216)“消费”文档记号，并将其标注成地址的一部分，而每一个点线边缘(1214和1224)消费记号，将其标注成不是地址的一部分。实线边缘是不消费任何记号的epsilon转换。

给定文档，“铺开”FSM以生成相应的网格，该网格可以用于计算该文档中的路径概率，如图13中所示。图13包括网格1310、边缘1312、节点1314和文档记号1316。为了清楚说明起见，只对边缘和节点中的一些进行了标注。图13描述了每一个记号1316在下面对齐对于该记号的可能路径。

网格1310中的每一个边缘1312具有是文档中的特征的函数的权重。使用标准解码算法(例如，Viterbi)，可以识别出通过该网格1310的最高权重路径，并输出记号1316和转换(边缘)1312的相应标注。此外，还可以训练权重函数，使得可以提取任何给定路径的概率。

通常，尽管不是要求，但边缘权重函数是在感兴趣边缘“附近”的记号特征的函数。在下面讨论的例子中，并参见图14，假定存在两个记号特征，IsNumber和IsStreetType，它们被描述成记号特征1410。如果记号1412对应于数字(“1401”和“THIRD”)，则IsNumber是1，以及对于记号1412对应于街道类型(“STREET”、“ST”、“AVENUE”、“AVE”)，则IsStreetType是1。于是，如图14中所示，每一个记号1412具有维度为2的相应特征向量1414。

再次参见图13，考虑针对网格1310中的实线“水平”边缘的边缘权重函数。该函数查看在转换之前的记号的特征和在转换之后的记号的特征：

权重(特征)＝θ₁×IsNumber(之前的记号)+θ₂×IsStreetType(之前的记号)+

θ₃×IsNumber(之后的记号)+θ₄×IsStreetType(之后的记号)

对参数θ_i进行训练，以使关于训练集的某种损失函数最大化。通常，训练集包含与沿着网格的路径相对应的标记。直观上，训练算法尝试学习权重函数，使得与未标注的路径相比，训练数据中的标注的路径具有更高的整体权重。

此外，训练数据还可以在无需个别地识别单个路径的情况下，指定在通过网格的允许路径集上的约束。在上面所描述的例子中，可以具有用于指示“1401”、“THIRD”和“AVENUE”都是地址记号的标记；由于网格的结构，因此其没有个别地识别路径，而是将该路径约束到中间三个记号上的虚线记号消费边缘中。

A.分层状态机

在大部分段提取领域中，感兴趣的概念是分层的。在地址示例中，地址具有诸如街道之类的子概念，而街道也可以具有子概念。可以将这种领域表示成“概念层次”，其中根节点表示感兴趣的概念，而子节点对应于相互排斥的子组成部分；相互排斥意味着单个记号属于子组成部分中的至多一个子组成部分(因此，“Third”可以是街道的一部分或者Zip编码的一部分，而不可能是这二者的一部分)。

为了简化表示，可以以多种不同的方式来分层地指定有限状态机。考虑分层有限状态机(HFSM)，其中使用模块来递归地定义FSM；模块中的转换可以对应于“普通”状态转换，或者它们可以指代转换到子模块。

举例而言，图15示出了两个模块。左边的模块“X”1510具有转换到模块“Y”1514的模块边缘1512(其标注为“mY”)和转换边缘“tX”1516(其是消费一个记号的普通转换边缘)。模块Y1514具有消费一个记号的普通转换边缘“tY”1518和不消费任何记号的普通转换边缘1520。如图16中所描述的FSM1600所示，通过利用子模块来递归地替换模块边缘1512，来恢复标准的相应FSM。FSM1600包括转换边缘“tY”1610、转换边缘“tX”1612和转换边缘1614，它们分别对应于图15的转换边缘“tX”1516、转换边缘“tY”1518和转换边缘1520。

B.交互式构建段提取模型

为了构建用于一个领域的段提取系统，通常需要机器学习专家：(1)定义底层有限状态机的结构；(2)定义用于边缘的特征函数，其需要调整“窗”的大小以考虑每一个边缘的周围以及将使用哪些特征；以及(3)调整作为结果的模型，使得其满足应用的性能需求。此外，机器学习专家通常开始于固定的标注的训练集和测试集。下面将描述在无需机器学习专家的情况下，允许领域专家构造实体提取模型的系统。

用于构建段提取器的交互式系统可以包括：用于用户指定约束的单元，其中该约束管理记号是否属于特定的段；以及用于将这些约束存储成标记(标注能力)的单元；用于系统交互式地使用最新的用户输入、当前文档信息和可训练函数(标记的交互式传播，不需再训练)，来重新计算和显示最可信的段的单元；用于系统使用所有先前的输入标记(机器学习所需要的、慢非交互式训练)来训练可训练函数的单元；以及用于系统基于由可训练函数所计算的评分，来自动地选择下一个要标注哪个例子的单元(主动标注)。

C.概念层次

利用本文所描述的技术，领域专家可以交互式地提供与感兴趣领域相对应的概念层次。在地址的例子中，并不需要机器学习专家就能够将地址分解成其组成部分。通过提供允许领域专家指定概念层次的用户界面，以及随后通过使用模块内的缺省结构来将该层次转换成HFSM，和/或通过使用标注的数据在候选结构之中进行选择，可以在无需领域专家知道或者关心状态机的情况下，构建复杂的提取模型。

此外，可以对领域专家使用的“语言”进行扩展，以允许他提供机器内的额外的约束。例如，领域专家可能想要说明一个地址至多可包含一个zip编码，或者任何地址必须具有给出的街道部分。

另外，领域专家可以构建用于某个概念的提取器，并随后“将其插入”作为用于另一个任务的子概念。这对应于具有HFSM中的模块，其对应于先前训练的HFSM。在该例子中，有人可以在地址的上下文之外，构建zip编码提取器。随后，当指定用于地址的概念层次时，该人可以说zip编码子概念对应于先前的概念。当执行这种“插入”时，可以决定要冻结子机器的权重，使得它们不需要在新的领域中进行训练。

用于构建段提取器的交互式系统可以包括下面中的一项或多项：允许用户交互式地指定概念层次的用户界面，其可以是用户不再提供关于分层状态机的其它信息，以及系统使用缺省策略和/或模型选择策略来完成分层状态机的指定。用于构建段提取器的交互式系统可以是使得用户可提供概念层次和关于领域的一个或多个额外约束(转换成关于分层状态机的约束)，以及还可以使得额外的约束在于：子概念实例在其父概念的实例中至多出现一次(例如，一个地址至多可以包含一个zip编码)。此外，还可以存在额外约束，其包括：子概念实例必须在其父概念的实例中至少出现一次(例如，一个地址必须包含一个州)，关于子概念的部分顺序(例如，在地址中，城市必须在州之前)，以及两个兄弟子概念不能同时出现在它们的父概念的实例中(一个地址不能包含美国邮政编码和加拿大邮政编码)。

此外，用于构建段提取器的交互式系统还可以使得先前构建的用于概念的模型可以被重用(例如，有人构建zip编码提取器，而你可以告诉系统你想要使用那个相同的提取器，但是在你的地址提取器的上下文中)。此外，还可以使得针对模块内包含的边缘，对重用的提取器的参数进行冻结(即，边缘权重函数是固定的)，但其中在针对该模块的进入和出去的转换边缘上的边缘权重函数，针对上下文进行训练。

D.标记模块化/二进制标注

当标注诸如地址之类的分层概念时，针对每一个文档都标注地址的所有组成部分是枯燥乏味的。更容易的是领域用户一次只集中于该层次中的一个节点(“地址”或“Zip编码”)，来快速地标注多个文档。

如本文关于标注所使用的标记模块化指代标记者聚焦，即，一次针对一个模块进行标注/优化的能力。应当注意，由于在HFSM中将所有模块连接在一起，所以针对一个模块的改进和标记可以同时提高其它模块；标记模块化专门用于意味着用户聚焦的模块化。

如本文所使用的，如果用户要引出的标记是以模块上的“入”或“出”标记为特性的，则就说HFSM中的模块是二进制的。具体而言，标注成“入”的记号是下面内容的限制：“消费”该记号的边缘必须包含在给定的模块或者其子节点中的一个(例如，如果一个记号被标注“地址”，则其可以是其子概念或者隐式的“地址：其它”中的任何一个)。类似地，标注成“出”的记号是下面内容的限制：“消费”该记号的边缘不能包含在给定的模块或者其子节点中的任何一个。

非二进制HFSM可以是有额外的标记可用的HFSM。例如，假定“街道”模块消费两个不同的标记，这两个标记并不对应于子模块：街道1和街道2。转而，标注工具能够根据用户来引出一个记号是哪种类型的街道。当然，这可以转换成等同的二进制标注：“是街道1”和“是街道2”。

当HFSM中的每一个模块是二进制时，那么可以使用二进制标注工具，以便在每一模块的基础上，引出用于该HFSM的标记。图17描述了用于地址的二进制标注的系统的示例性屏幕截图1700。

概念层次1710示出在左边，其具有根节点1712(“地址”)和三个子节点(“街道”、“城市”和“Zip编码”)。如图所示，用户选择了根节点1712。在相应的HFSM中，存在没有显式地向用户示出的子概念“地址：其它”，这允许机器接受不属于这三个子节点的地址记号(例如，标点、填充文字等等)。作为搜索结果来返回的网页1716显示在右边。为了标注网页1716上的是地址的一部分的记号，已首先选择了根节点1712，用户在第一记号1718(“15710NE24^THST.SUITEE”)上点击，并拖拽到地址的最后记号1720(“98008”)，从而选择整个地址部分。图18描述了来自图17的搜索结果的一部分，其通常被称为搜索结果1800。图18示出了整个地址部分1810的用户选择。

应当注意，知道作为地址的一部分的记号，并不提供关于哪些记号是街道、城市或Zip编码的显式标记。随后，用户点击图17的提交按钮1722，并显示出新文档。显示的新文档可以是基于用户提供的显式搜索词(例如，包含“98008”的页面)，或者是基于使用现有模型的主动学习算法(参见下文)。

在标注多个文档之后，系统训练了可以用于“预标注”地址的模型。此外，该预标注可以考虑约束，以快速地引出标记；如果所提议的标记是不正确的，则用户可以点击具有错误标记的单个记号，该约束可以“传播”到文档中的其它记号。

用户可以通过点击概念层次中的相应节点(例如，“街道”、“城市”或“Zip编码”)，来改变要标注哪个概念。因此，如果用户接着想要标注城市，则他可以点击城市节点，并进入对文档上的地址内的城市进行标注，如图19中所描述的。图19描述了可与图17的相比较的，用于对地址进行二进制标注的系统的示例性屏幕截图1900，其通常被称为屏幕截图1900。

概念层次1910示出在左边，其具有根节点1912(“地址”)和三个子节点：子节点1914(“街道”)、子节点1916(“城市”)和子节点1918(“Zip编码”)。如图所示，用户选择了“城市”节点1916。作为搜索结果来返回的网页1920显示在右边。如图所示，用户已选择了记号1922(“BELLEVUE”)作为城市。参见图20，该图描述了可与屏幕截图1900的一部分相比较的示例性屏幕截图2000，应当注意，当用户将记号标注成是“城市”时，这意味着它们是地址的一部分。如果用户在提交该标记之前，从城市改变成地址，则他将看到他的城市标记已隐含地址标记，如图20中所示。现在选择了根节点2010(“地址”)，记号2012(“Bellevue”)仍然被选中，这指示其与“地址”的标记相关联。

用于构建段提取器的交互式系统可以允许领域专家提供与概念层次中的节点相关联的二进制(入/出)标记。

E.作为特征的段提取模型和分类模型

一旦已构造了实体提取模型，则其可以使用成另一个实体提取器中的边缘权重函数的输入。例如，针对文档中的每一个记号，可以使用EE模型来预测该记号是地址的一部分的概率。随后，该概率或者该概率的某个函数可以使用成记号特征值以及其它“标准”特征值中的一个。

此外，实体提取模型还可以用于生成针对分类模型的文档层级特征。例如，可以构建饭店页面分类器，其具有在页面上存在地址的概率>0.5的特征。实体提取模型还可以使用分类模型作为特征。用于构建段提取器的交互式系统可以使用预构建的段提取模型和/或预构建的分类模型，来生成用于段提取模型的输入特征。

F.段提取查看面板

当已构建了段提取模型时，查看该模型如何关于用户已经进行了标注的文档来预测是有用的。预测的标记和实际标记之间的误匹配，可以指示标注误差，或者可以建议要增加新特征。图21示出了使用识别日期的提取问题，来执行该操作的查看面板的示例性屏幕截图2100。图21包括文档文本2110、记号2112(“02/21/07”)、记号2114(“JANUARY”)和记号2116(“BY”)。用户识别的标记由记号2112下面的下划线2118来指示。模型预测2120由放置在记号2112、2114和2116上的上面三个边的矩形来指示。如图21中所示，该模型已将“02/21/07”正确地识别成日期，但将“JANUARYBY”错误地标注成日期。虽然“JANUARY”是月份，但在所示出的上下文中，其并不是实际日期的一部分。

图22示出了用户已标注的文档中的模型预测的示例性屏幕截图，其描述了该模型正确地识别记号2210(“JULY23”)，但遗漏了作为日期的记号2212(“7-23-12”)的情形。

用于构建段提取器的交互式系统，可以具有用于同时地查看标记与现有的模型的预测的界面。

G.小型文档

诸如网页或书中章节之类的文档可能非常长。从而，“标注一个文档”可能是简直枯燥乏味的，这是由于标注者需要扫描整个文档。为了缓解该问题，可以将文档分段成更多可管理的子文档，但不损失正被标注的段的上下文。参见图23，该图示出了示例性标注工具的屏幕截图2300，其中描述了文档的高亮显示部分(其被称为小型文档(minidoc))，其包含处于中间的“高亮”矩形。小型文档2310周围的上下文是标注者可见的，但在一个实施例中，当用户提交标记时，仅仅向系统提交小型文档2310内的文本部分。用户可以通过点击拖拽小型文档的边界，来改变小型文档2310的大小。替代地，如果用户标注小型文档2310之外的文本段，则可以将小型文档2310扩展到包括该文本。

可以以多种方式来初始化小型文档。例如，给定现有的模型，可以识别可能(或者或许不确定)的感兴趣地址，随后定义包含该记号段的小型文档。用于构建段提取器的交互式系统可以将输入文档分段成更小的子文档。另外，可以基于预先存在的段提取模型或者基于与特定的记号或记号特征的邻近性，对子文档进行自动初始化。

Claims

1.一种交互式生成用于机器学习的字典的方法，包括：呈现用于生成字典的用户界面，其中所述字典包括定义作为用于训练分类器的特征可用的概念的词语或者n元词中的一个或二者的列表；在所述用户界面上呈现正例字段，其中所述正例字段被配置为接收是所述概念的正例的用户输入词语或者n元词，其中所述正例是从以下各项中的一项或多项来接收的：A)键入条目或者B)对来自于一个或多个建议集字段中的一个或多个建议的词语或n元词的选择；以及在所述用户界面上呈现被配置为显示一个或多个系统生成列表的所述一个或多个建议集字段，其中所述一个或多个系统生成列表包含可选择以包括在所述正例字段中的建议的词语或n元词。

2.根据权利要求1所述的方法，所述方法还包括：接收是所述概念的第一正例的第一用户输入词语或n元词；呈现表示至少基于所述概念的所述第一正例生成的泛化概念的建议的词语或n元词列表。

3.根据权利要求2所述的方法，所述方法还包括：在呈现所述建议的词语或n元词列表之后，接收是所述概念的第二正例的第二用户输入词语或n元词；至少基于所述第一正例和所述第二正例的组合，来改进所述建议的词语或n元词列表；以及呈现表示改进的泛化概念的所改进的建议的词语或n元词列表。

4.根据权利要求2所述的方法，所述方法还包括：接收对来自于建议集字段中的一个或多个词语或n元词的用户选择；以及将来自于所述第一建议集的所述用户选择的一个或多个词语或n元词包括在所述正例字段中。

5.根据权利要求1所述的方法，其中，所述字典中的每一个词语或n元词被分配相应的权重。

6.根据权利要求5所述的方法，其中，每一个词语或n元词的相应权重在所述字典的生成期间是基于训练数据通过频率和字典大小的函数进行缩放的。

7.根据权利要求6所述的方法，其中，所缩放的权重通过正则化约束相关，其中所述正则化约束将具有较少训练数据的词语的权重向由具有更多训练数据的词语确定的值调整。

8.其上包含有计算机可使用指令的一个或多个计算机存储介质，其中当所述计算机可使用指令被执行时，促进交互式生成用于机器学习的字典的方法，所述方法包括：呈现用于生成字典的用户界面，其中字典包括用于定义概念的n元词列表，以及其中所述字典是作为用于训练分类器的特征可用的；在所述用户界面上呈现正例输入字段，其中所述正例输入字段被配置为接收是所述概念的正例的用户输入的n元词；在所述用户界面上呈现一个或多个建议集字段，其中所述一个或多个建议集字段被配置为显示一个或多个系统生成的建议的n元词列表；接收是所述概念的正例的一个或多个用户输入的n元词；基于所述一个或多个用户输入的正例，生成表示第一泛化概念的建议的n元词的第一集合；以及在所述用户界面上的第一建议集字段中，呈现所述建议的n元词的第一集合。

9.根据权利要求8所述的介质，所述方法还包括：至少基于一个或多个额外的用户输入的正例，生成表示对所述第一泛化概念的改进的所述建议的n元词的第一集合的改进；以及在所述用户界面上，呈现所述建议的n元词的第一集合的所述改进。

10.根据权利要求9所述的介质，所述方法还包括：重复所述生成所述改进和呈现所述改进的步骤，直到接收到所述用户已完成编辑所述字典的指示为止；以及将所述正例输入字段的内容保存在字典中。