CN101432439A

CN101432439A - Dna阵列上的高通量基因组测序

Info

Publication number: CN101432439A
Application number: CNA2007800147466A
Authority: CN
Inventors: 拉多杰·德马纳克; 马修·J·卡洛; 斯尼扎纳·德马纳克
Original assignee: Callida Genomics Inc
Current assignee: Complete Genomics Inc
Priority date: 2006-02-24
Filing date: 2007-02-26
Publication date: 2009-05-13
Anticipated expiration: 2027-02-26
Also published as: EP1994180A4; IL238895A0; CA2643700A1; IL193599A0; WO2007133831A2; CN101432439B; AU2007249635A1; IL193599A; IL238895B; JP5180845B2; AU2007249635B2; WO2007133831A3; JP2010500002A; JP2013027401A; EP1994180A2; EP2495337A1; US20090005252A1; US8722326B2

Abstract

本发明涉及使用散布在靶标多核苷酸中的衔接头来获得靶标序列的核苷酸序列信息的方法和组合物。该序列信息可以是新的，例如对未知核酸测序、再测序或者基因型分裂。本发明优选地包括在靶标多核苷酸或者多核苷酸片段内的间隔位置上插入多个衔接头的方法。这样的衔接头可以充当平台，用于通过不同的测序化学法，例如那些通过引物延伸、探针连接等来鉴别核苷酸的测序化学法来起到询问邻近的序列的测序化学法。本发明涵盖这样的方法和组合物，用于将已知的衔接头序列插入靶标序列，使得连续的靶标序列被衔接头所中断。通过对衔接头的“上游”和“下游”两者测序，可以完成整个靶标序列的鉴定。

Description

DNA阵列上的高通量基因组测序

相关申请的交叉引用

本申请要求2006年2月24日提交的临时申请流水号60/776,415的优先权，本文通过提述并入其全部内容。

关于联邦资助的研究的声明

本申请已由联邦政府通过美国国立卫生研究院的拨款书No.1 U01AI57315-01部分资助。

发明背景

基因组DNA的大规模序列分析对于理解与人和许多经济上重要的动植物的健康和疾病状态相关的多种生物学现象是十分重要的，例如Collinset al(2003)，Nature，422：835-847；Service，Science，311：1544-1546(2006)；Hirschhorn et al(2005)，Nature Reviews Genetics，6：95-108；National CancerInstitute，Report of Working Group on Biomedical Technology，“Recommendation for a Human Cancer Genome Project，”(February，2005)；Tringe et al(2005)，Nature Reviews Genetics，6：805-814。对低成本高通量的测序和再测序(re-seuqencing)的需要已促成了若干新方法的开发，这些新方法同时使用许多靶标DNA片段的平行分析，例如Margulies et al，Nature，437：376-380(2005)；Shendure et al(2005)，Science，309：1728-1732；Metzker(2005)，Genome Research，15：1767-1776；Shendure et al(2004)，NatureReviews Genetics，5：335-344；Lapidus et al，美国专利公布US 2006/0024711；Drmanac et al，美国专利公布US 2005/0191656；Brenner et al，NatureBiotechnology，18：630-634(2000)等。这些途径反映了为了下列目的的解决方案：在平面阵列中增加靶标多核苷酸密度以及在特定序列检测化学法(chemistry)的每个循环中获得递增量的序列信息。大多数这些新方法仅在确定数十个核苷酸后，信号即显著地降级，从而对总体测序效率产生了限制。

传统高通量测序技术的另一种局限性是，在阵列表面上DNA靶标点的随机布置(其在许多测序技术中被使用)使得靶标点的包装效率(packingefficiency)较之将DNA连接在预定的位点上(诸如网格(grid)中)可能达到的包装效率有所降低。

鉴于这些局限性，如果能够提供另外的途径来增加从靶标多核苷酸阵列中能够获得的测序信息量，对本领域将是有益的。在本领域中还需要制备阵列支持物的有效而便宜的方法，该阵列支持物带有几十亿个尺寸和间距在亚微米级的结合位点。

发明内容

因此，本发明一方面致力于解决由许多大规模DNA测序方法产生的、与序列读取长度(read-lengths)短相关的问题，包括每个酶循环获得的序列信息有限的问题。还提供制备工程化核酸分子的随机阵列的方法和组合物，所述阵列能够支持几十亿个分子，包括尺寸和间距在亚微米级的分子。

在一方面中，本发明提供了鉴定(determine the identification of)靶标序列的一个检测位置上的第一核苷酸的方法，其中该靶标序列包含多个检测位置。在优选的方面中，本方法包括两步：提供多个多联体(concatemers)和鉴定第一核苷酸。每个多联体包含多个单体，每个单体包含：(i)靶标序列的第一靶标域，包含第一组靶标检测位置；(ii)第一衔接头，包含IIs型内切核酸酶限制位点；(iii)靶标序列的第二靶标域，包含第二组靶标检测位置；和(iv)第二散在(interspersed)衔接头，包含IIs型内切核酸酶限制位点。在优选的实施方案中，使靶标序列多联体固定在表面上。在进一步的实施方案中，将该表面官能化。

在一个实施方案中，本发明提供了鉴定(determine the identification of)靶标序列的一个检测位置上的第一核苷酸的方法，其中鉴定步骤包括将多联体与一组测序探针接触。在示例的实施方案中，每个测序探针包含与衔接头之一互补的第一域、在第一询问位置(interrogation position)上的独特的核苷酸，以及标记。在优选的实施方案中，在这样的条件下完成多联体和测序探针之间的接触，使得如果所述独特的核苷酸是与第一核苷酸互补的，那么测序引物杂交到多联体，从而鉴定该第一核苷酸。

在另一个实施方案中，每个衔接头包含锚探针(anchor probe)、杂交位点和鉴定步骤。在示例的实施方案中的该鉴定步骤包含：将锚探针杂交到锚探针杂交位点，将测序探针杂交到邻近所述衔接头的靶标检测位置，连接邻近的杂交的测序探针和锚探针以形成连接的探针，并检测连接的探针以鉴定第一核苷酸。

在另一个实施方案中，每个衔接头包含锚探针杂交位点，鉴定步骤包含将锚探针杂交至锚探针杂交位点并添加聚合酶和至少一种包含标记的dNTP。在这样的条件下添加所述聚合酶和至少一种dNTP，使得如果该dNTP与检测位置完全地互补，那么该dNTP被添加到锚探针以形成延伸的探针，从而产生该延伸的探针的询问位置。通过确定在延伸的探针的询问位置上的核苷酸来鉴定第一核苷酸。

在本发明的进一步的实施方案中，鉴定在第二检测位置上的核苷酸。在本发明的更进一步的实施方案中，鉴定在第三检测位置、第四检测位置、第五检测位置和/或第六检测位置上的核苷酸。

在一个实施方案中，本发明提供了鉴定在靶标序列的检测位置上的第一核苷酸的方法，其中将靶标序列多联体固定在表面上，并且该表面包含官能性模块(moiety)，其包括但不限于胺、硅烷和羟基。在进一步的实施方案中，该表面包含多个空间上迥异(spacially distinct)的区域，这些区域包含所述固定的多联体。在更进一步的实施方案中，使用捕捉探针(captureprobe)将多联体固定在该表面上。

在一个方面中，本发明提供一种基片，包含多个固定的多联体的，所述多联体的每个单体包括：第一靶标序列、包含IIs型内切核酸酶限制位点的第一衔接头、第二靶标序列、和包含IIs型内切核酸酶限制位点的第二散在衔接头。第一衔接头的IIs型内切核酸酶限制位点可以与第二衔接头的IIs型内切核酸酶限制位点相同或者不同。在进一步的实施方案中，每个单体进一步包含第三靶标序列和包含IIs型内切核酸酶限制位点的第三散在衔接头，并且在更进一步的实施方案中，每个单体进一步包含第四靶标序列和包含IIs型内切核酸酶限制位点的第四散在衔接头。

在另一个方面，本发明提供了在靶标序列中插入多个衔接头的方法。在优选的方面，该方法包括这些步骤：(i)将第一衔接头连接到所述靶标序列的一个末端，其中该衔接头包含限制性酶的结合位点；环化来自步骤(i)的产物以产生第一环形多核苷酸；用限制性酶切割该环形多核苷酸，其中该限制性酶能够结合到该第一衔接头内的结合位点；连接第二衔接头，其中所述第二衔接头包含限制性酶的结合位点；并且环化来自步骤(iv)的产物以产生第二环形多核苷酸。在一些实施方案中，重复步骤(iii)到(v)以在靶标序列中插入期望数量的衔接头。在优选的实施方案中，环化步骤包含添加CircLigase^TM酶。

在另一个实施方案中，环化步骤包含将环化用序列(circularizationsequence)添加到靶标序列的第二末端，将桥接模板(bridge template)至少杂交到衔接头的一部分和环化用序列的一部分(hybridizing a bridge templateto at least a portion of the adaptor and a portion of the circularization sequence)，并且将第一和第二末端连接在一起以环化靶标序列。

在另一个方面，本发明提供鉴定靶标序列的核苷酸序列的方法。在这种方法中，在靶标序列内提供多个散在衔接头，并且每个散在衔接头与靶标序列具有至少一个边界(boundary)。鉴定与至少两个散在衔接头的至少一个边界邻近的至少一个核苷酸，从而鉴定该靶标序列的核苷酸序列。

在另一个方面，本发明提供了多核苷酸的文库。在优选的方面，该文库包含超过一个核酸片段，并且每个片段包含多个以预定顺序排列的散在衔接头。每个散在衔接头具有至少一个包含这样的序列的末端，所述序列不能与该多个散在衔接头中的其他散在衔接头的其他序列交叉杂交(cross-hybridize)。在进一步的优选方面，散在衔接头的预定顺序对各个核酸片段而言是同样的。

在一个方面中，本发明提供一种鉴定靶标多核苷酸的核苷酸序列的方法，其包含如下步骤：从该靶标多核苷酸的多个片段中的每个片段产生扩增子并且形成这些扩增子的随机阵列，将一个或多个测序探针杂交到该随机阵列，通过在序列特异性反应中延伸所述一个或多个测序探针来确定与至少一个散在衔接头邻近的至少一个核苷酸的身份(identity)，并且重复杂交和鉴定步骤直至鉴定出靶标多核苷酸的核苷酸序列。在优选的方面，在这样的条件下将测序探针杂交到随机阵列：所述条件允许一个或多个探针和散在衔接头上的互补序列之间形成完全匹配的双链体(duplex)。在优选的方面，每个片段在预定的多个位点上含有多个散在衔接头。在进一步的方面，每个扩增子包含多个拷贝的片段，片段的数目使得这些片段基本上覆盖靶标多核苷酸。在更进一步的方面，将随机阵列的扩增子以这样的密度固定到表面，使得至少大多数扩增子是光学上可分辨的(opticallyresolvable)。

在另一个方面，本发明提供一种鉴定靶标序列的核苷酸序列的方法，其包含下列步骤：提供多联体的随机阵列，将来自第一组探针的一个或多个探针杂交到该随机阵列，将来自第二组探针的一个或多个探针杂交到该随机阵列，将杂交至靶标多联体的连续(continguous)位点上的来自第一组和第二组的探针连接起来，鉴定被连接的第一和第二探针的序列，并重复杂交、连接和鉴定步骤，直至鉴定出靶标序列的序列。在优选的方面，多联体的随机阵列包含固定于平坦表面(planar surface)的多联体，所述平坦表面具有由光学上可分辨的离散间隔区(discrete spaced apart regions)组成的阵列，并且每个多联体包含靶标多核苷酸的片段的多个拷贝，不同的多联体的数目使得它们各自的片段基本上覆盖所述靶标序列。在进一步的方面，每个离散间隔区具有不小于1μM²的面积，使得基本上所有的离散间隔区均附接有最多一个多联体(have at most one concatemer attached)。

在另一个方面，本发明提供了鉴定靶标序列的核苷酸序列的方法，其包含：产生多个包括靶标序列的片段的多个拷贝的多联体；形成多联体的随机阵列，其中将所述多联体以这样的密度固定于表面，使得这些多联体的至少大多数是光学上可分辨的；和鉴定至少一个多联体中的至少一个散在衔接头邻近的每个片段的至少一部分的序列，由此鉴定靶标序列的核苷酸序列。

附图的简要描述

图1A-1G表明本发明和其应用。

图2A-2G表明在核酸片段中插入衔接头以产生含有散在衔接头的靶标多核苷酸的不同方法。

图3A-3E表明可以在含有散在衔接头的靶标多核苷酸上实施的高通量测序方法。

图4提供了通过附接RCR产物来产生的结构化DNA阵列和标准随机DNA阵列的比较。

图5表明在有序的阵列上的参考图式。

图6显示了在rSBH仪上成像的随机阵列。

图7显示了三幅重叠的阵列图像，经过了微小的移位以更容易观察。

图8显示了五幅重叠的阵列图像，经过了微小的移位。

图9显示了五幅重叠的阵列图像，经过了微小的移位。

图10显示了阵列的图像，其中将横跨盖玻片表面的多行捕获探针用于特异性结合DNBs。

本发明的详细描述

除非另有说明，本发明的实施可以使用属于本领域技术的关于有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和描述。这些常规技术包括聚合物阵列合成、杂交、连接和使用标记来检测杂交。对合适技术的具体说明可以参考下文的实施例。但是，当然也可以使用其他等效的常规规程。这些常规技术和描述可见于标准实验室手册中，例如Genome Analysis：A Laboratory Manual Series(Vols.I-IV)，Using Antibodies：A Laboratory Manual，Cells：A Laboratory Manual，PCR Primer：A Laboratory Manual，and Molecular Cloning：A LaboratoryManual(均来自Cold Spring Harbor Laboratory Press)，Stryer，L(1995)Biochemistry(4th Ed.)Freeman，New York，Gait，“Oligonucleotide Synthesis：APractical Approach”1984，IRL Press，London，Nelson and Cox(2000)，Lehninger，Principles of Biochemistry 3^rdEd.，W.H.Freeman Pub.，New York，N.Y.and Berg et al.(2002)Biochemistry，5^thEd.，W.H.Freeman Pub.，New York，N.Y.，这里通过提述并入上述所有文献的全部内容用于所有的目的。

概要

本发明涉及使用分散在靶标多核苷酸中的衔接头来获得靶标序列(本文中又称“靶标多核苷酸”)的核苷酸序列信息的方法和组合物。该序列信息可以是新的，例如对未知核酸的测序、再测序、或者基因型分析(genotyping)。本发明优选地包括在靶标多核苷酸或者多核苷酸片段内的间隔(spaced)的位置上插入多个衔接头的方法。本文将这些衔接头称为“散在衔接头”，利用它们作为平台，通过不同的测序化学法(例如通过引物延伸、探针连接等来鉴定核苷酸的那些化学法)来询问(interrogate)邻近的序列。也就是说，本发明的一些实施方案中的一个独特的组成部分，是将已知的衔接头序列插入到靶标序列，使得连续的靶标序列被衔接头所中断(there is aninterruption of contiguous target sequence with the adaptors)。通过对所述衔接头的“上游”和“下游”两者测序，可以完成全部靶标序列的序列信息。

因此，不起限制作用，一般可以将本发明描述如下(应该注意到基因组DNA在这里用作实例，但不意味着是限制性的)。使用标准技术将来自任何生物的基因组DNA分离并断裂成靶标序列。将第一衔接头连接到靶标序列的一个末端。该衔接头优选地包含IIs型限制性内切核酸酶位点，其在识别序列外部切割。如果该酶导致“粘性”末端，可以将该突出端(overhang)部分或是补平或是去除。

在一个实施方案中，将包含衔接头和靶标序列的线形链的两端用酶连接以形成环化的核酸。这可以使用单个步骤来完成。或者，可以将第二衔接头添加到靶标序列的另一末端(例如，多聚A尾)，然后可以将桥接序列杂交到两个衔接头，再进行连接。在任一实施方案中，形成环形序列。

然后用IIs型内切核酸酶切割环形序列，生成线形链，然后重复该过程。这生成带有衔接头的环形序列，所述衔接头分散在原本是连续的靶标序列内的明确限定的位置上。

然后使用滚环复制(RCR)反应来扩增所述环化的序列，以形成原始靶标序列的多联体(例如单体所成的多聚体)。然后可选地将这些长多联体型“DNA纳米球”(“DNBs”)以多种方法固定在表面上，如下所概述。

一旦在表面上，就利用已知的衔接头序列对间隔的(intervening)靶标序列进行测序。如本领域中所知的，有多种技术可以用于检测(detect)或鉴定(determine the identity of)靶标核酸的特定位置上的碱基，包括但不限于温度的使用、理想的探针和非理想的探针对靶标序列的竞争性杂交、通过合成的测序，例如使用单碱基延伸技术(有时称为“迷你测序”(minisequencing))，寡核苷酸连接酶扩增(OLA)反应、滚环复制(RCR)、等位基因PCR、竞争性杂交和Invader^TM技术。优选的实施方案包括通过带有连接的杂交来测序，和通过杂交来测序。

然后可以将序列信息用于重新构建更大的靶标序列的序列，例如完整基因组DNA的测序。

对大量核酸的测序(其在基因组分析、流行病学研究和诊断试验等应用中是必需的)一般涉及对测序技术加以改造使之适用于高通量形式。但是，传统的高通量测序技术有缺点，尤其是序列阅读长度短的问题——即，对于许多高通量测序方法而言，它们能够成功测序的靶标序列在长度和类型上是受限的。这种限制主要是由于单个操作中的单个片段上能够被确定的连续碱基的数量。本发明通过在每个靶标多核苷酸或片段中提供多个位点，从所述位点实施特定测序化学法，提供了多个邻近的序列读取(adjacentsequence read)。在一个方面中，这些邻近的读取是连续的，从而有效地增加了多种测序化学法的期望读取长度。

这样，本发明使得人们能够通过确定位于衔接头任一侧(on each side ofadaptors)的序列来确定更长的连续或大体连续的靶标序列。

靶标多核苷酸的组成/结构

由此，本发明提供了使用来自样品的靶标序列的组合物和方法。正如本领域的技术人员将会理解的，样品溶液可以包含任何数量的东西，包括但不限于体液(包括但不限于血液、尿液、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液)和几乎任何生物的细胞，优选哺乳动物样品并且尤其优选人样品；环境样品(包括但不限于空气、农业样品、水样品和土壤样品)；生物战媒介的样品；研究样品(即在核酸的情况中，样品可以是扩增反应的产物，包括靶标扩增和信号扩增两者，例如PCR扩增反应；纯化的样品，例如纯化的基因组DNA，RNA制备物，粗样品(细菌、病毒、基因组DNA等)；如本领域的技术人员将理解的，在所述样品上可能已实施过几乎任何实验操作。

一般而言，使用来自靶标生物(动物、鸟类、哺乳动物等)的细胞。当使用基因组DNA时，用于构建本发明的阵列所需的基因组DNA的量可以在很广的范围内变化。在一个方面中，对于哺乳动物大小的基因(mammalian-sized genomes)而言，从至少大约10个基因组当量的DNA产生片段；在另一个方面，从至少大约30个基因组当量的DNA产生片段；在另一个方面，从至少大约60个基因组当量的DNA产生片段。

靶标序列或靶标多苷酸是核酸。这里的“核酸”或者“寡核苷酸”或者其语法上的等同物，是指共价地连接在一起的至少两个核苷酸。一般，本发明的核酸将含有磷酸二酯键，但在一些情况下，如下文所概述的那样(例如在引物和探针，例如标记探针的构建中)，包括核酸类似物，它们可能具有其它的骨架，例如磷酰胺(Beaucage et al.，Tetrahedron 49(10)：1925(1993)和其中的参考文献；Letsinger et al.，Nucl.Acids Res.14：3487(1986)；Sawai et al，Chem.Lett.805(1984)，Letsinger et al.，J.Am.Chem.Soc.110:4470(1988)；和Pauwels et al.，Chemica Scripta 26：14191986))，硫代磷酸酯(Mag et al.，Nucleic Acids Res.19：1437(1991)；以及美国专利No.5,644,048)，二硫代磷酸酯(Briu et al.，J.Am.Chem.Soc.111：2321(1989)，O-甲基亚磷酰胺连接(Eckstein，Oligonucleotides and Analogues：A PracticalApproach，Oxford University Press)，和肽核酸骨架和连接(Egholm，J.Am.Chem.Soc.114：1895(1992)；Meier et al.，Chem.Int.Ed.Engl.31：1008(1992)；Nielsen，Nature，365：566(1993)；Carlsson et al.，Nature 380：207(1996)，将所有这些文献通过提述并入))。其他类似物核酸包括带有二环结构的那些，包括锁定核酸，Koshkin et al.，J.Am.Chem.Soc.120：132523(1998)；正骨架(positive backbone)(Denpcy et al.，Proc.Natl.Acad.Sci.USA 92：6097(1995))；非离子骨架(美国专利5,386,023、5,637,684、5,602,240、5,216,141和4,469,863；Kiedrowshi et al.，Angew.Chem.Intl.Ed.English 30：423(1991)；Letsinger et al.，J.Am.Chem.Soc.110：4470(1988)；Letsinger et al.，Nucleoside& Nucleotide 13：1597(1994)；Chapters 2 and 3，ASC Symposium Series 580，“Carbohydrate Modifications in Antisense Research”，Ed.Y.S.Sanghui and P.Dan Cook；Mesmaeker et al.，Bioorganic & Medicinal Chem.Lett.4：395(1994)；Jeffs et al.，J.Biomolecular NMR 34：17(1994)；Tetrahedron Lett.37：743(1996))和非核糖骨架，包括在美国专利5,235,033和5,034,506，和ASC SymposiumSeries 580，第6章和第7章，“Carbohydrate Modifications in AntisenseResearch”，Ed.Y.S.Sanghui and P.Dan Cook中所描述的那些。含有一个或多个碳环糖(carbocyclic sugars)的核酸也包含在核酸的定义之内(参见Jenkinset al.，Chem.Soc.Rev.(1995)pp 169 176)。在Rawls，C & E News Jun.2，1997第35页中描述了几种核酸类似物。在此明确地通过提述并入所有这些参考文献。可以进行这些核糖-磷酸骨架的修饰以增加这些分子在生理环境中的的稳定性和半衰期。例如，PNA:DNA杂合体可以呈现更高的稳定性，因此可以将其使用在一些实施方案中。

核酸可以如指明的那样是单链或双链的，或者含有双链序列或者单链序列两者的部分。核酸可以是DNA——包括基因组DNA和cDNA，可以是RNA，或者可以是杂合体，其中核酸含有任何组合的脱氧核糖核苷酸和核糖核苷酸，和任何组合的碱基，包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等。

在这里的术语“靶标序列”或“靶标核酸”或其语法上的等同物，是指核酸的单条链上的核酸序列。靶标序列可以是基因的一部分、调控序列、基因组DNA、cDNA、包括mRNA和rRNA的RNA，等等。如这里所概述的，靶标序列可以是来自样品的靶标序列，或者是来自扩增反应产物等二级靶标等的靶标序列。靶标序列可以是任意长度。

如下文更充分地概述的，使探针与靶标序列杂交，以确定样品中靶标序列的有无。一般而言，本领域的技术人员将理解该术语。靶标序列还可以由不同的靶标域组成；例如，样品靶标序列的第一靶标域可以杂交到捕获探针，而第二靶标域可以杂交到标记探针，等等。如所指明的那样，靶标域可以是邻近的或者是分开的。除非明确说明，术语“第一”和“第二”并不意图赋予这些序列以方向(就靶标序列的5’-3’方向而言)。例如，若互补靶标序列取5’-3’的方向，则该第一靶标域可以位于第二域的5’方向(5’to thesecond domain)，或者位于第二域的3’方向(3’to the second domain)。

在一个实施方案中，使用基因组DNA，特别是人基因组DNA。使用常规的技术来获取基因组DNA，例如在Sambrook et al.，supra，1999；CurrentProtocols in Molecular Biology，Ausubel et al.，eds.(John Wiley and Sons，Inc.，NY，1999)等中所公开的。对于基因组DNA的分离而言，重要的因素包括下列内容：1)该DNA不含DNA加工酶(DNA processing enzymes)和杂质盐(contaminating salts)；2)整个基因组被平等地呈现(equally represented)；并且3)DNA片段长度在约5,000到100,000bp之间。

在许多情况中，由于在溶菌和提取中产生的剪切力将产生在期望的范围中的片段，因此不需要对提取的DNA进行消化。在另一个实施方案中，通过使用限制性内切核酸酶来酶促断裂可以产生更短的片段(1-5kb)。在一个实施方案中，10-100个基因组当量的DNA可确保片段的总体(population)覆盖整个基因组。在一些情况中，每当仅有少量的样品DNA可用，并且有由于非特异性结合(例如结合到容器壁上等)而丢失的危险时，有益的是提供载体DNA，例如不相关的环形合成双链DNA，将其与样品DNA混合并一同使用。在一个实施方案中，在断裂后将DNA变性以产生单链片段。

可以从基因组DNA等源核酸(source nucleic acid)通过断裂以产生特定大小的片段，来生成靶标多核苷酸；在一个实施方案中，所述片段长度为50至600个核苷酸。在另一个实施方案中，所述片段长度为300至600或者200至2000个核苷酸。在再另一个实施方案中，所述片段长度为10-100、50-100、50-300、100-200、200-300、50-400、100-400、200-400、400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、800-1000、900-1000、1500-2000、1750-2000和50-2000个核苷酸。继而可以环化这些片段，以便用于RCR反应或者其他生物化学过程(例如额外的衔接头的插入)。

本发明的多核苷酸具有容许自多个位点或是连续地或是同时地获得序列信息的散在衔接头。散在衔接头是被插入在靶标多核苷酸内部区域中的相互隔开的(spaced)位置上的寡核苷酸。在一个方面中，关于靶标多核苷酸的“内部的”指对处理前的靶标多核苷酸而言为内部的位点，所述处理例如环化和切割，可能引入序列倒置或者类似的转化，从而打乱靶标多核苷酸内的核苷酸的排序。

在一个方面中，如下文更充分地概述的那样，将散在衔接头以一定的间隔(at intervals)插入到靶标多核苷酸的连续区域内。在一些情况中，这些间隔具有预定的长度，其可以相等或者不等。在其他的情况中，散在衔接头之间间隔的可知的准确度仅有(the spacing between interspersed adaptorsmay be known only to an accuracy of)从一个到少数个核苷酸(例如从1至15)，或者从一个到数十个核苷酸(例如从10至40)，或者从一个到数百个核苷酸(例如从100至200)。优选地，每个靶标多核苷酸内的散在衔接头的排序和数量是已知的。在本发明的一些方面中，将散在衔接头与被附接至靶标核苷酸末端的衔接头一起使用。

在一个方面中，本发明以多联体形式提供靶标多核苷酸，所述多联体含有靶标多核苷酸或者靶标多核苷酸片段的多个拷贝(例如“单体”)。DNA多联体在常规条件下(常规的DNA缓冲液，例如TE、SSC、SSPE等，在室温)形成无规卷曲(random coil)，所述卷曲在溶液中以本领域中公知的方式【例如Edvinsson，“On the size and shape of polymers and polymercomplexes，”Dissertation 696(University of Uppsala，2002)】大致充满一球形体积，该空间的直径为约100至300nm，依赖于该DNA的大小和缓冲液条件。

对于无规卷曲多聚体(例如单链DNA)的大小的一种量度，是末端到末端距离(end-to-end distance)的均方根，其大致是卷曲结构的直径的量度。这种直径在本文中称为“无规卷曲直径”，可以通过光散射加以测量，所述光散射使用例如Zatasizer纳米系统(Malvern Instruments，UK)等仪器。本发明的大分子结构的大小的其它量度包括分子量(例如以道尔顿计)和总多聚物长度，后者在分枝的多聚体的场合是其所有分枝之长度的总和。

当附接到表面上时，依赖于附接化学法(attachment chemistry)、联结的密度(density of linkages)、表面的性质等，单链多核苷酸充满一平面化的球状体积(flattened spherical volume)，其平均而言由近似等同于采取无规卷曲构型的多联体的直径的区域所包围(bounded by a region which isapproximately equivalent to the diameter of a concatemer in random coilconfiguration)。在表面上保持大分子结构的紧密形式，使得特异性针对多联体成分的探针(例如荧光标记的寡核苷酸)能够产生更强烈的信号。

在一些实施方案中，通过提供具有不同锚探针结合位点的衔接头可以产生多个类别的多核苷酸。这种“聚类”(“clustering”)为提高多核苷酸的序列信息的获取效率提供了可能。

断裂的方法

需要有效的定位(mapping)策略用于测序应用，例如对复杂的二倍体基因组测序、从头测序和对基因组的混合物测序。在一个实施方案中，提供了分级的断裂(hierarchical fragmentation)规程以鉴定单倍型信息并为二倍体基因组组装亲本染色体(assemble parental chromosomes for diploiodgenomes)。还可以将这些规程应用于预测蛋白质等位基因和将短读取定位至基因组内的正确位置。这些方法的另一种用途是发生在由多个基因间共享的约100个碱基的DNA序列内的突变在基因家族中的正确指配。

图1C-D说明了本发明的一个方面，其中处理(1601)源核酸(1600)(其可以是或者可以含有数个单靶标多核苷酸)以形成单链片段(1602)，优选从50至600个核苷酸的范围，并且更优选的范围从300至600个核苷酸，然后将其连接到衔接头寡核苷酸(1604)以形成衔接头-片段缀合物的群体(1606)。衔接头(1604)通常是起始衔接头，它不需要是“散在的”(所述“散在的”是就它将在原始序列中本来连续的两个序列分开的意义而言)。源核酸(1600)可以是使用常规技术从样品提取的基因组DNA，或者是通过常规技术产生的cDNA文库或者基因组文库，或者合成的DNA等。处理(1601)通常涉及通过常规技术实现断裂，例如化学断裂、酶促断裂或者机械断裂，接着通过变性以产生单链DNA片段。

在任一阶段产生片段的过程中，片段可以来源于整个基因组或是基因组的选择的子集。有许多技术可以用于分离或者富集来自基因组子集的片段，如下列参考文献所示例的，通过提述并入它们的全部内容：Kandpal et al(1990)，Nucleic Acids Research，18：1789-1795；Callow et al，美国专利公开2005/0019776；Zabeau et al，美国专利6,045,994；Deugau et al，美国专利5,508,169；Sibson，美国专利5,728,524；Guilfoyle et al，美国专利5,994,068；Jones et al，美国专利公开2005/0142577；Gullberg et al，美国专利公开2005/0037356；Matsuzaki et al，美国专利公开2004/0067493等。

在一个实施方案中，基因组DNA的裂解和提取期间的剪切力产生在期望范围中的片段。本发明还涵盖利用限制性内切核酸酶的断裂方法。

在优选的实施方案中，尤其对哺乳动物大小的基因组而言，断裂至少分为两个阶段进行，第一阶段产生大小范围从约100千碱基(Kb)至约250千碱基(Kb)的片段群体，第二阶段分别地应用于每个100-250Kb的片段以产生在从约50至600个核苷酸的大小范围，更优选地在从约300至600个核苷酸的大小范围内的片段，以供产生用于随机阵列的多联体。在本发明的一些方面中，断裂的第一阶段还可以用来选择这些片段的预定的子集，例如含有编码信号转导途径的蛋白的基因的片段等。

在一个实施方案中，使用在US Ser.No.11/451,692中(通过提述并入其全部内容)概述的技术来断裂样品基因组DNA。在这个方面中，将基因组DNA作为30-300kb大小的片段分离。通过适当的稀释，将这些片段的小子集随机地置于多孔板或者类似配件(accessory)的离散(discreet)的孔中。例如带有96、384或者1536孔的板可以用于这些片段子集。产生这些DNA等分试样的最佳方法是用天然地断裂成高分子量形式的方法来分离该DNA，在定量后稀释到10-30个基因组当量，然后将全部制备物分到384个孔中。这使得所有基因组序列均得以呈现(represented)，并且以100％的回收效率对10-30个细胞实施DNA分离可确保所有染色体区域均以相同的覆盖度(coverage)被呈现。在这种方法中通过提供等分试样，将来自染色体的相同区域的两个重叠片段放置到相同板孔中的概率被降至最低。对于用10x覆盖度呈现的二倍体基因组而言，平均有20个重叠片段要分进不同的孔。如果将这种样品在384孔板上分配，那么每个孔含有平均1,562个片段。通过在标准384孔板中形成384个级分，两个重叠片段最终落入相同孔中的机会仅有约1/400。即使某些匹配的片段被置入相同的孔中，来自每个染色体区的其他重叠片段也可提供独特的定位信息。

在一个实施方案中，将制备好的几组长片段进一步地切割成约300至600个碱基的最终片段大小。为了在组中获得的每个片段的足够(例如10x)的覆盖度，可以在最终切割前使用开发成熟的(well-developed)全基因组扩增方法来扩增每个孔中的DNA。

然后将来自一个孔的所有短片段在一个单独的单位阵列上或者在更大的连续矩阵(matrix)的一部分(section)中排列并测序。具有384个单位阵列的复合阵列(composite array)对于这些片段组的平行分析是理想的。在呈现亲本染色体的长序列的组装中，算法可以使用下面的关键信息：在一个单位阵列中被检测的短片段属于有限数目的更长的连续区段，每个所述的连续区段呈现同一染色体的一个离散部分。在几乎所有情况中，同源染色体区段均可以在不同单位阵列上分析。长(约100Kb)的连续初始区段形成拖尾(tailing)图形，并依赖于约100个多态位点/100kb DNA来提供足够的定位信息以分别地组装每个亲本染色体，如下文所描述的。在下面的实例中，点代表100-1000个在相应的区段中相同的连续碱基。

孔3 ......T........C..........C...G..........A.........

孔20 ....C........T..........T...A..........G.........C...

孔157 .......T.....A...........G...........C........A...C...

孔258 ....C..........C...G..........A.........T........G...T....

孔3和258组装亲本1的染色体1：...T........C..........C...G.......A..........T........G...T

孔20和157组装亲本1的染色体2：...C........T..........T...A..........G......C........A...C...

在一个实施方案中，使用本领域已知的用于全基因组扩增的方法来完成在染色体分离规程中获得的单个靶标的扩增。在优选的实施方案中，使用产生10-100倍扩增的方法。在一个实施方案中，这些规程对于待扩增的序列不进行区分，而是扩增样品中的所有序列。这种规程不需要完整地扩增整个100kb片段，并且可以使用更短的片段，例如从1-10kb的片段。

散在衔接头的组合物/结构

在一个方面中，在靶标多核苷酸的连续区域内以一定的间隔插入散在衔接头。散在衔接头在长度上可以有很大的变化，其长度部分地依赖于期望的功能元件的数量和类型。这些功能元件包括但不限于锚序列、与捕获探针序列互补的序列(例如用于附接至表面)、标签序列、二级结构序列、用于标记探针的附接/杂交的序列、功能化序列、引物结合位点、核酸酶(例如切口酶(nicking enzyme)及限制性内切核酸酶等)的识别位点等。

在一个实施方案中，衔接头包含如本领域所知的限制性内切核酸酶识别位点。在一个实施方案中，这些识别位点可以是用于切口酶的识别位点。

在一个实施方案中，限制性内切核酸酶位点是IIs型限制性内切核酸酶位点。IIs型内切核酸酶一般是商业上可获得的并且是本领域公知的。与它们相应的II型内切核酸酶相似，IIs型内切核酸酶识别双链多核苷酸中的核苷酸碱基对的特定序列。当识别该序列时，该内切核酸酶将切割多核苷酸序列，一般造成该序列的一条链的突出端，或称“粘性末端”。一般，IIs型内切核酸酶还在它们识别位点的外面切割；离识别位点的距离可以是2至20个核苷酸不等。因为切割发生在多核苷酸序列的不确定的部分内，因此在本发明的方法下，能够把握到切割位点为止的不确定的序列。通常，选择这样的IIs型限制性内切核酸酶，它们的切割位点与它们的识别位点相隔至少6个核苷酸(即识别位点的末端与最近的切割点之间的核苷酸的数目)。示例的II性限制性内切核酸酶包括但不限于Eco57M I，Mme I，Acu I，Bpm I，BceA I，Bbv I，BciV I，BpuE I，BseM II，BseR I，Bsg I，BsmF I，BtgZ I，Eci I，EcoP15 I，Eco57M I，Fok I，Hga I，Hph I，Mbo II，Mnl I，SfaN I，TspDT I，TspDW I，Taq II等。

在一些实施方案中，每个衔接头包含相同的IIs型限制性内切核酸酶位点。在备选的实施方案中，不同的衔接头包含不同的位点。

在一个实施方案中，一个或多个衔接头包含锚探针杂交位点。如下文所概述的，将锚探针用在测序反应中，并且可以具有多种形式。一般而言，锚探针杂交位点的至少一个末端是位于靶标序列和衔接头间的连接处(juncation)；就是说，测序反应通常依赖于与靶标序列的检测位置直接相邻的锚探针的杂交。可以这样地选择或设计锚或者引物，使它们是或者具有一个至约十个或更多个，优选一个至四个自靶标-衔接头连接处左移或者右移(shifted left or right from the target-adaptor junction)的碱基。如这里所使用，“检测位置”指在靶标序列中期望获得序列信息的位置。

在许多实施方案中，测序反应可以自锚探针的两末端进行(run off bothend of the anchor probes)；因此，在一些实施方案中，锚探针杂交位点包含整个衔接头序列。或者，在每个衔接头内可以有两个锚探针杂交位点；一个邻近于(adjacent to)或接近于(close to)靶标序列的3’末端，另一个接近于(adjacent to)或接近于(close to)靶标序列的5’末端。如本领域的技术人员将会理解的，取决于锚探针的长度和衔接头的长度，两个锚探针杂交位点可以在衔接头中重叠，它们可以是直接相邻(directly adjacent)的，或者它们可以被间插序列(intervening sequence)所分开。锚探针杂交序列的长度依赖于测定法的条件而变化。

在一个实施方案中，一个或多个衔接头包含引物结合序列。如本领域中所知的，聚合酶一般需要带有一部分双链核酸的单链模板(a singlestranded template with a portion of double stranded nucleic acid)(例如多联体)。必需地，任何序列可以充当引物结合序列以结合引物，因为任何双链序列都会被聚合酶所识别。一般而言，引物结合序列长度为约3至约30个核苷酸，优选从约15至约25个核苷酸。引物寡核苷酸长度通常为6至25个碱基。如本领域的技术人员将会理解的，引物结合序列可以包含在任何其他衔接头序列内。

在一个实施方案中，一个或者多个衔接头包含捕获探针识别序列。如下文所更完全地叙述的，本发明的一个实施方案使用在基片表面上的捕获探针以固定化DNB。在这种实施方案中，所述衔接头包含这样的域，该域与一个或多个捕获探针有足够的互补性以容许该域和该捕获探针的杂交，导致DNB固定化在该表面上。

在一个实施方案中，一个或者多个衔接头包含二级结构序列。例如，在多联体内的多个衔接头中的回文序列导致衔接头之间的杂交(例如在多联体中的拷贝之间的分子间相互作用)，因此“紧固”(“tightening”)DNA纳米球(“DNB”)的三维结构。这些回文序列单位长度可以是5、6、7、8、9、10或者更多个核苷酸并且可以具有不同的序列，例如为提供特定解链温度而选择的序列。例如，回文AAAAAAATTTTTTT将以下面的形式提供在邻近的任何两个单位复制物(unit replica)之间的14个碱基的dsDNA杂合体：

AAAAAAATTTTTTT

TTTTTTTAAAAAAA

在一个实施方案中，衔接头包含标记探针结合序列。在一些实施方案中，例如对于特定序列的检测而非测序反应，可以将标记探针添加到多联体以检测特定序列。标记探针将杂交到标记探针结合序列，并包含至少一个可检测的标记，如本文中所概述的。例如，以这种方式可以完成诸如细菌或者病毒等感染原的存在的检测。

在一个实施方案中，衔接头包含标签序列(tagging sequences)。在这个实施方案中，可以将标记序列用于拉出(pull out)或者纯化环化的靶标序列、多联体等。在一些实施方案中，标签序列可以包括独特的核酸序列，该序列可用于在带标签的样品的混合物中鉴定靶标序列的来源，或者可以包括配体结合对(ligand binding pairs)的组分，例如生物素/链亲和素等。

在一个方面中，每个散在衔接头具有从8至60个核苷酸范围的长度；在另一个方面中，它们具有从8至32个核苷酸范围的长度；在另一个实施方案中，它们具有选自下列范围的长度：从约4至约400个核苷酸；从约10至约100个核苷酸，从约400至约4000个核苷酸，从约10至约80个核苷酸，从约20至约70个核苷酸，从约30至约60个核苷酸，和从约4至约10个核苷酸。使用带有总长度从约20到约30个碱基的衔接头的实施方案在几个实施方案中有独特的用处。

插入靶标多核苷酸的散在衔接头的数量可以有很大的变化，并且依赖于许多因素，包括使用的测序/基因型分析化学法(和它的读取-长度能力)，特定IIs型位点的切割位点的具体长度，在每个靶标多核苷酸内期望鉴定的核苷酸的数量，是否在插入间使用扩增步骤等。

在一个方面中，将多个散在衔接头插入靶标多核苷酸的连续区段中的位点；这可以包括插入靶标多核苷酸的连续区段中的位点的两个、三个、四个或更多个散在衔接头。或者，插入靶标核苷酸的散在衔接头的数目范围为从2至10个、从2至4个、从3至6个、从3至4个和从4至6个。在另一个方面，可以将散在衔接头插入更长(例如0.4-4Kb长度)的多核苷酸的如下所述的多核苷酸区段(这里称为“匹配对(mate-pair)”)中之一或二者中：所述多核苷酸区段已通过环化操作而直接或者间接地连接在一起。在一个方面中，这些多核苷酸区段长度可以是4-400(优选10-100)个碱基。

还应该注意的是，一般而言，附接到靶标序列的第一衔接头不是“散在的”或者“插入的”。也就是说，通常将第一衔接头附接至断裂的靶标序列的一个末端，并且将随后的衔接头分散在连续的靶标序列内。

在一个方面中，一组靶标多核苷酸的每个成员具有带有相同的锚探针结合位点的衔接头和附接到来自源核酸的DNA片段的IIs型识别位点。在另一个实施方案中，通过提供具有不同锚探针结合位点的衔接头可以产生多个多核苷酸类型。

在一个方面中，将衔接头以一定的间隔插入靶标多核苷酸的连续区域内，其中所述间隔具有预定的长度。这些预定的长度可以相等或者不等。在一些实施方案中，间隔长度的可知的准确度为约1至200个核苷酸，在其他的实施方案中，从约1-15、10-40和100-200个核苷酸。

依照本发明，散在衔接头可以是单链或者双链的。

在一个方面中，衔接头包括回文序列，后者促进靶标多核苷酸内的分子内相互作用，导致“纳米球”的生成。

插入多个衔接头的方法

本发明的一个方面提供了产生具有散在衔接头的靶标多核苷酸的方法，如图1A-1B的示意图说明的。在这种方法中，将靶标多核苷酸(1002)与衔接头(1000)结合以形成(1004)环(1005)，其中所述衔接头可以是散在衔接头也可以不是散在衔接头，所述环可以或是单链或是双链的。一般地，通过断裂更大的DNA，例如染色体DNA或者其他基因组DNA，来获得靶标多核苷酸。

如果使用双链DNA，则可以通过使用常规技术对片段的末端进行“光滑化”(polishing)并可选地连接衔接子，来为环化作准备，所述常规技术有例如在常规的鸟枪测序中使用的技术，例如Bankier，Methods Mol.Biol.，167：89-100(2001)；Roe，Methods Mol.Biol.，255：171-185(2004)等。

为了产生用于插入第二散在衔接头的下一个位点，典型地使环(1005)成为双链，至少暂时成为双链。在本发明的这个方面中，将衔接头(1000)设计成包括IIs型限制性内切核酸酶识别位点，该位点的方向使得它的切割位点(1006)位于靶标多核苷酸(显示在例如衔接头(1000)的右侧)的内部，由此打开(1008)环(1005)。在优选的实施方案中，插入散在衔接头的方法使用在切割后留下3’突出链的IIs型限制性内切核酸酶。对于精确度较低的插入，可以使用切口酶，或者可以使第一衔接头的一条链丧失连接能力(disabled from ligation)，由此产生缺口，缺口可以被平移近似的距离(can betranslated at an approximate distance)并可以用于启动多核苷酸的切割。

将多核苷酸切割后，使用常规技术将散在衔接头(1010)连接进合适位置以产生含有两个衔接头的开环(1012)，然后将其通过连接来闭合(1016)。然后重复(1018)该过程：切割、插入和闭合，直至将期望数量的散在衔接头，例如三个散在衔接头插入(1026)靶标多核苷酸(1002)，如图1B所示。然后可以通过许多方式处理含有散在衔接头的最终环(1024)以获得靶标核苷酸中与每个散在衔接头的至少一个边界邻近的位点上的序列信息。

典型地，对位于或邻近于每个散在衔接头和靶标核苷酸之间的两个边界之一或二者(例如1021)的靶标核苷酸序列进行分析。在一个方面中，可以扩增最终环(1024)或者它的区段以产生扩增子，将其通过经选择的序列化学法，例如基于连接或者合成测序的测序化学法来分析。在一个方面中，可以这样地选择第一个和最后的散在衔接头，使得最终环(1024)中含有散在衔接头的区域可以从该环切除(1038)，之后，连接衔接头(1040)用于通过聚合酶链式反应(PCR)来扩增。环的切割可以在衔接头1和3外的一个或两个位点上进行。在另一个方面，可以直接地使用最终环(1024)通过滚环复制(RCR)来产生扩增子，如下文更详细描述的。

对于平行地分析许多不同靶标多核苷酸的应用，可以使用RCR或者乳液PCR(emulsion PCR)扩增含有散在衔接头的靶标多核苷酸，分别如图1C-1D和图1E-1G所示。

在乳液PCR中，可以扩增片段的混合物，例如如下列文献所公开的：Margulies et al，Nature，437：376-380(2005)；Shendure et al(2005)，Science，309：1728-1732；Berka et al，U.S.patent publication 2005/0079510；Church et al，PCT申请WO 2005/082098；Nobile et al，美国专利申请2005/0227264；Griffiths et al，美国专利6,489,103；Tillett et al，PCT申请WO 03/106678；Kojima et al，Nucleic Acids Research，33(17)：e150(2005)；Dressman et al，Proc.Natl.Acad.Sci.，100：8817-8822(2003)；Mitra et al，Anal.Biochem.，320：55-65(2003)；Musyanovych et al，Biomacromolecules，6：1824-1828(2005)；Li et al，Nature Methods，3：95-97(2006)等，这里通过提述并入它们的全部内容用于所有目的。

简而言之，如图1E所示，在分离包含带有散在衔接头的靶标多核苷酸的DNA环(1500)后，将衔接头切除，例如在图1A(1038)中所显示，以形成经切除的序列的群体，然后将这些序列与衔接头(1503)连接。在水-油乳液(1505)中将带衔接头的序列与引物、珠子和DNA聚合酶混合，其中，所述引物对于连接到经切除的序列的一个末端的衔接头是特异的；所述珠子上附接有对连接到切除的序列的另一末端的衔接头序列特异性的引物。选择条件使得在油中(1506)有相当数量(例如大于15-20％)的水泡(1508)含有单个散在序列(1510)和至少一种珠子(1512)。其它的水泡(1508)中的水相含有用于进行PCR的常规反应混合物，从而产生这样的一些珠子(1518)，其中每个珠子上附接着独特的带有衔接子的序列的克隆群体。

在本发明的一个方面中，将多个散在衔接头导入单个基因组片段是经过一系列步骤进行的，包括1)连接含有IIs型限制性酶的结合位点的起始衔接头并闭合DNA环，接着2)延伸引物和选择性限制切割基因组序列以重新打开环；和3)连接第二衔接头并且闭合DNA环。然后重复步骤2和3以将第三衔接头纳入基因组序列(图2B和2C)。第二衔接头可以使用与第一衔接头相同的限制位点以最大程度地减少在基因组DNA的内部位点上切割基因组区段。在一个实施方案中，使用本领域中已知的技术来阻断在第一衔接头限制位点上的切割，例如通过在第二位点切割前甲基化第一限制位点，来实现使用第二衔接头识别位点而非第一衔接头识别位点的受控制的切割。

对于带有不同结合位点的衔接头，可以将它们与两个等分的样品一起使用，以防遗漏某些基因组片段。在一个实施方案中，将一部分最终衔接头序列用作RCR引发位点，而将另一部分衔接头用作附接到玻璃表面的锚寡核苷酸的结合位点。

在本发明的一个方面中，将衔接头插入基因组片段的方法首先进行第一衔接头的连接，然后进行环形成。通过可产生适合用于连接的5’磷酸和3’OH基团的DNAse断裂来制备长度为100至300(或者300-600)个碱基的基因组片段。通过加热(变性)和快速冷却可以将高复杂度的基因组DNA制备为单链(ss)DNA。因为该DNA是高复杂度的，任何片段的互补序列的局部浓度可以是忽略不计的，因此容许有足够时间在该DNA大多数处于单链状态时进行随后的规程。由于每条ssDNA片段的5’和3’末端的不同极性，ssDNA的使用显著地简化了环形成。第一阶段是将衔接头序列连接到每个单链基因组片段的末端(ends)。因为所有可能的序列组合都可能呈现在基因组DNA中，因此可以在具有所有可能的序列的合成的桥连模板分子的帮助下，将衔接头连接到一个末端(图2B)。因为这些寡核苷酸相比基因组DNA而言浓度可能相对较高，因此与基因组片段的末端互补的寡核苷酸(或者带有错配的互补物)可能发生杂交。这样就在连接位点上形成桥，容许单链基因组片段的5’末端与衔接头连接。在一个实施方案中，这种结构排布不容许衔接头与片段的3’末端连接。

在图2B中，示例说明了另一种将多种散在衔接头纳入DNA环的方法。这种方法包含以下步骤：1.将衔接头(230)连接到单链DNA(232)的5’和3’末端(衔接头含有简并(6-9个碱基)的桥模板(234))，接着通过三碱基的突出端(236)来连接衔接头；2.用聚合酶延伸衔接头寡核苷酸(238)以产生用于IIs型限制性酶切割的双链DNA；3.在IIs型识别位点(240)的12-16个碱基的下游切割(242)而打开环；4.加热导致新链(243)的丢失；和5.片段准备好导入另一个衔接头(230)，并再次闭合环。

将3’末端捕获进入环需要使用寡核苷酸模板(其也是用简并碱基制备的)以在连接位点上方形成桥结构(a bridge structure is formed over the ligationsite)。利用位于基因组片段的3’末端的第二衔接头部分，和与结合于5’末端的衔接头的末端互补的三碱基突出端来封闭环。通过在有利于模板桥(而不是三碱基突出端)杂交的温度进行该衔接头区段的附接，可以通过缓冲液交换去除过量的桥分子，因为基因组/衔接头分子是附接于固体支持物的。三碱基突出端对环形成而言是足够的，但除非降低温度，条件对其是不利的(would not be favored until the temperature was decreased)。通过使用带有简并碱基的两个桥接寡核苷酸，可以消除由于基因组DNA的多种多样的序列末端而产生的假象(artifacts)。在优选的实施方案中，两个桥连寡核酸相互独立地进行附接，以确保简并寡核苷酸自由地结合到它们的互补序列。可以将两个衔接头组分在同一连接反应中连接到各自的DNA末端，而且，通过设计带有封闭(blocked)末端的桥连模板寡核苷酸可以进一步地防止连接假象。

在非环衔接头链(non-circle adaptor strand)上引入捕获机制(如生物素/链亲和素)的做法，可以用在下游清除过程(down-stream cleanup process)中。在这种实施方案中，因为存在未连接的和连接的生物素标记的衔接头，因此可以通过对约200个碱基长度的衔接头-基因组片段进行大小选择，来去除未连接的过量衔接头。然后可以将衔接头-基因组片段附接到链亲和素包被的珠子上，用于随后的清洗步骤。另一个选择是使用带有捕获寡核苷酸(可能掺有PNA或LNA)的珠子，所述捕获寡核苷酸与一个连接的衔接头(ligatedadaptor)的一部分互补。可以利用带有预先组装的左边的第一衔接头/模板的珠子进一步简化该方法。

在图2C中，说明了纳入散在衔接头的另一种示例的方法。该方法包含下列步骤：(1)使用含有简并碱基(例如，256和258区段显示了7个简并碱基的使用，但是也可以使用8个简并碱基)的模板寡核苷酸将两种衔接头区段(250和252)连接到单链DNA片段(254)(250双链区段长度可以是大约10个碱基，而252双链区段长度可以是8-10个碱基)。用3’末端上的双脱氧终止和在5’末端的OH基团或生物素来阻断模板寡核苷酸(250和256)的两个末端的连接。衔接头/模板杂合物以很高的浓度，例如1μM的浓度使用，并且比基因组DNA浓度过量1000倍。(2)通过在3’衔接头(250)的5’末端上的生物素将DNA收集在链亲和素支持物上(260)。将过量的游离5’衔接头和上清液一起除去。(3)通过高温来从链亲和素支持物释放DNA并且收集上清液。(4)使用3’末端被双脱氧终止封闭的长捕捉寡核苷酸(262)来将DNA重新捕捉到固相支持物上。寡核苷酸可以是肽核酸(PNA)的形式，以提供DNA与固相支持物的紧密结合，从而方便随后步骤中过量游离衔接头的去除。可以通过在5’末端(264)上添加1-10个简并碱基来延伸捕获寡核苷酸(262)，用于结合基因组部分以增加稳定性。(5)利用桥模板(266，其长度可以是14-18个碱基)使衔接头的两个末端凑到一起，以环化该DNA分子。用酰胺基团将它的5’末端封闭，但是3’OH基团将可用于后面步骤中DNA聚合酶所致的延伸。在反应中提供激酶和连接酶以磷酸化5’衔接头的5’末端和连接DNA分子的两个末端。

在用于插入多个衔接头的另一个示例性的捕捉规程中，使用简并模板将两个衔接头区段连接于基因组ssDNA片段(图2C)。衔接头区段的3’末端(其连接到基因组DNA的5’末端)具有封闭性的互补物(blockingcomplement)。3’衔接头区段的模板具有生物素。衔接头/模板是具有很高的浓度，例如1μM，并且具有大约高出基因组DNA 1000x的浓度。在链亲和素支持物上收集DNA并且将溶液和过量的衔接头成分一起去除。在高温下释放基因组DNA并收集DNA溶液。在带有与5’末端衔接头区段互补的长寡核苷酸(带有封闭的末端)的第二固相支持物上再次收集该DNA并去除了所有其他合成DNA。然后加入桥接模板，其还起引物的作用。加入激酶和连接酶(和聚合酶)以闭合环，并将该引物延伸到约30个碱基。通过时间或者通过ddNTPs的存在来控制延伸。加热使酶失活，然后用IIs型限制性酶来切割DNA。在高温下去除短双链部分，与此同时环通过与附接的寡核苷酸所成的强杂交体附接于固相支持物上。通过将LNA或PNA碱基掺入寡核苷酸来维持这种更强的杂交体。然后添加两个衔接头区段(同上文相同的设计)和第二衔接头的模板。因为在以后的步骤中环DNA将持续地结合于固相支持物，由此不需要另外的对固相支持物的附接。使用高温以去除结合于环DNA的模板。重复这种步骤以插入第三衔接头。如果没有另外的衔接头要插入，那么不添加聚合酶，在缓冲液交换后，在高温下将DNA释放用于RCR反应。

在图2D中说明了插入散在衔接头的另一个示例方法。这种方法产生与散在衔接头邻接的、具有预定长度的靶标多核苷酸区段。通过选择和定位在散在衔接头内的IIs型限制性内切核酸酶来选择预定的长度。在这种方法的一个方面中，从起始衔接头到倒数第二衔接头的每个不同的散在衔接头具有不同的IIs型限制性内切核酸酶的识别位点。将双链DNA(dsDNA)断裂以产生具有散损末端(frayed ends)(269)的靶标多核苷酸(270)，之后使用常规技术修复这些末端以形成带有平末端的片段(271)。使用Taq聚合酶或类似的酶将单个核苷酸(273)，例如dA添加到平末端片段(271)的3’末端以产生增大的片段(272)(augmented fragments)。在连接酶的存在下，将增大的片段(272)与具有互补核苷酸(诸如dT)的突出端的散在衔接头(274)结合，因此形成多个连接产物，其中包括含有单个散在衔接头和单个片段的产物(275)。可以调节条件以促进产物(275)的环化(276)，由此形成dsDNA环(283)。其他产物，例如在两末端带有散在衔接头的缀合物或未连接的片段和衔接头，一般将不具有形成环的能力，并且在产物(275)环化后，可以通过单链核酸外切酶消化来去除。

用识别衔接头(278)中的位点的IIs型限制性内切核酸酶来处理dsDNA环(283)以切割dsDNA环(283)，使靶标多核苷酸(270)的区段(277)邻近于衔接头(278)。在这种实施方案中，IIs型限制性内切核酸酶的切割留下3’锯齿状的末端(indented ends)，DNA聚合酶将其延伸而形成平末端(279)，之后，处理片段(284)以将单个核苷酸添加到它的3’末端，如上文所述。对于片段(284)，连接具有互补突出端的第二散在衔接头(281)，并且重复该过程以导入更多的散在衔接头。在一个实施方案中，每个导入散在衔接头的循环包括对期望的产物的扩增步骤，以产生足够的材料用于随后的处理步骤。

在图2E中，说明了另一种在靶标多核苷酸中的预定位点上导入散在衔接头的示例方法。像在图2D中那样产生片段，并且产生dsDNA(285)，其具有含有IIs型识别位点的起始散在衔接头(286)，如上文所述，在预定的位点(287)上切割dsDNA环(285)以产生具有3’突出端(289)的片段(288)，其可以具有不同于二的长度(may have lengths different than two)。片段(288)的散在衔接头或是在衔接头与片段的边界处含有切口(290)，或是含有切口内切核酸酶的识别位点，所述切口内切核酸酶容许在衔接头内部导入切口(291)。在任一种情况中，用DNA聚合酶(292)处理的片段(288)，所述DNA聚合酶可以将上链从切口(例如291)延伸到片段(288)下链的末端以形成具有在一个末端上的3’突出端和在另一端上的平末端的片段。将具有在一末端的简并核苷酸突出端和在另一末端上的单种3’核苷酸(例如dT)突出端的散在衔接头(294)连接到这种片段以形成片段(295)，将其处理(例如用Taq聚合酶)以将3’dA添加它的平末端形成片段(296)。然后将片段(296)通过在位点(297)的连接来环化以形成dsDNA环(298)并且将其他连接产物消化，如上文所述。可以进行这种方法的另外循环以并入另外的散在衔接头，并且如上文，可以在每个循环中或者需要时添加扩增的可选步骤。

在图2F中，说明了纳入散在衔接头的另一种方法，其提供了在散在衔接头之间的长度可变的区段。也就是说，散在衔接头是以预定的顺序纳入的，但是衔接头的间隔不是精确知道的。这种方法所容许的纳入衔接头的距离比已知的限制酶所提供的距离更长。如上文，制备dsDNA环(2000)，所述环具有含有切口酶识别位点(2004)的起始衔接头(2002)(其可以是散在衔接头或不是散在衔接头)。产生切口(2006)后，用DNA聚合酶(2008)处理dsDNA环(2000)，该DNA聚合酶在切口位点(2006)处延伸(2010)游离的3’链并且取代或降解带有游离5’末端的链。经过预定的间隔之后停止反应，所选择的间隔短于预期合成多于数百个碱基要用的时间。可以通过多种方法来暂停这种延伸，包括改变例如温度、盐浓度等反应条件以使正使用的聚合酶失去活性。这样做会留下带有切口或其它缺口(2012)的dsDNA环，它可被具有核酸酶活性的多种酶，例如DNA聚合酶、FEN-1内切核酸酶、S1核酸酶(2014)等所识别和切割，可以将这些酶单独使用或联用，例如Lieber，BioEssays，19：233-340(1997)。在切口或缺口(2012)处切割之后，可以使用在鸟枪测序中使用的技术来修复靶标多核苷酸的末端，之后，可以使用产生锯齿状(staggered)末端或称粘性末端的IIs型限制性内切核酸酶在衔接头(2002)的左侧切割(2017)靶标多核苷酸(2000)。对于平末端，将下一个散在衔接头附接于其上，之后，可以使用常规技术环化所得的构建体，用于进一步插入散在衔接头。在一个实施方案中，连续的散在衔接头例如(2002)和(2018)之间的距离不是精确知道的，并且依赖于使用的切割酶、使用的聚合酶、容许合成的时间间隔、停止合成的方法，反应条件例如dNTP浓度等。

在一个实施方案中，在步骤(2010)，可以使用切口平移替代链置换。在一个方面中，在多核苷酸的断点处(2016)中，可以使第二衔接头仅连接到与第一衔接头连接的一侧。结合这种方法，可以在衔接头(2006)的另一侧上进行第二切割，以产生具有不同长度的两个区段【例如(10-50)+(30-300)碱基】的匹配对结构。

在一个方面中，本发明提供了插入衔接头的方法，该方法使用CircLigase^TM闭合不带模板的单链多核苷酸环。利用这种酶，能够使用单寡核苷酸形式的衔接头，并且仅使用一个模板。在这种方法中，在使用标准的连接酶(例如T4DNA连接酶)将衔接头连接到靶标多核苷酸的5’末端后，去除过量衔接头和模板。然后可以使用CircLigase^TM(和激酶，如果衔接头在5’末端不受磷酸化)以闭合单链多核苷酸环。

在一个实施方案中，在将起始衔接头插入多核苷酸后，可能需要将其从支持物释放方能够形成单链环。然后可以将多核苷酸再杂交至支持物；在一个实施方案中，这种再杂交发生在捕捉寡核苷酸上，所述捕捉寡核苷酸结合于支持物的表面。闭合环后，将引物与聚合酶一起加入，用于产生局部dsDNA并容许用IIs型限制性酶切割：

|-NNNNNNNUUUUUUUUUUU-|

GGGGGGGGGGGGGG.UUUUUUUUUUUUUUUUUUUUUUUUUUU-5’OH 3’OH-GGGGGGGGGG....

可以通过以下方式来预防多个衔接头的连接：用5’OH来开始或者具有可能处于以下发夹形式的长阻断模板：

|-NNNNNNNUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU-固相(solid)

UUUUUUUUUUUUUUUUUUUUUUUUUUUU-P|-UUUUUUU-|

其中U＝普通碱基，N＝简并碱基，P＝磷酸，G＝目的基因组或者DNA

一旦发生了环形成，用聚合酶延伸已预杂交到衔接头的引物以产生足够的双链DNA用于IIs型限制性酶切割，从而容许另外的衔接头的精确插入(图9)。可以使用Klenow等聚合酶，连同一定水平的ddNTP，来将延伸长度控制在大约20-30个碱基。

在本发明的一些实施方案中，如果每一酶步骤在不到30分钟内完成，那么插入两个另外的衔接头可能花费2-3小时。衔接头插入过程中产生的散发误差是可以容忍的，原因如下：针对每个碱基生成的数十个多余的重叠序列，和在每个未经受衔接头插入的DNA片段的大于100个碱基上产生的探针-探针数据。

在一个示例的方法中，可以通过带有在>1Kb的距离上的50-100个碱基+25个碱基匹配对的dsDNA环来插入多个衔接头。在这种方法中，使用A/T或平末端连接，提供了带有衔接头的约1-3Kb基因组片段的dsDNA环。在一个实施方案中，衔接头具有切口酶结合位点，或者它具有一个尿嘧啶或者其他可切割的或者可光切割(photo-cleavable)的碱基类似物，或者未连接的3’末端；和两个不同IIs型结合酶的识别位点。

在一个实施方案中，使用切口酶或在尿嘧啶位点切割DNA并且用链取代酶或切口平移酶将可用的3’末端延伸(或仅仅延伸DNA，如果衔接头连接已留下切口)约75个碱基；在使用未连接的3’位点的情况中，取代将通过衔接头，例如长度将是75个碱基加衔接头的长度。可以通过切口平移或通过带链取代的DNA合成来去除可用的3’末端。切割可以在切口处或在分支结构上发生，由几种酶(例如单链切口酶)中的一种来进行切割。这种方法导致与起始衔接头的一个末端相距30-110个碱基的dsDNA片段(dsDNAfragment 30-110bases next to one end of the initial adaptor)。然后可以用具有长切割距离的IIs型限制性内切核酸酶来切割DNA。在一个实施方案中，切割距离是从18至25个碱基。可以不用衔接头来闭合环(基因组片段的平末端连接)，或者可以通过第二衔接头的定向的平末端连接来闭合环。两个衔接头都可以用于进一步插入另外的衔接头，使用不同的酶或相同的酶。如果在第二衔接头插入前将第一衔接头位点甲基化，那么第二衔接头可以使用与衔接头末端相距合适距离的同一限制位点以获得在基因组DNA中特定位置上的切割。

环化的方法

可以使用不同的标准DNA环形成规程。一个实例是衔接头的平末端连接。这种途径的问题是纳入的多个衔接头的方向和连接。盒(cassette)的一条链的5’和3’两个末端都可以被阻断连接。盒的方向将确定哪条DNA链将具有游离3’末端以启动RCR。这将容许每条链在大约50％的情况下能得到复制。

DDDDDDDDDXLLLLLLLLLLLLXDDDDDDDDDDD

DDDDDDDDDOLLLLLLLLLLLLODDDDDDDDDDD

DDDDDDDDDXLLLLLLLLLLLLXDDDDDDDDDDD

D＝DNA，L＝衔接头，X＝被阻断的连接位点，O＝可连接

本领域的技术人员将理解的是，有几种形成环化的衔接头/靶标序列成分的方式。在一个实施方案中，使用CircLigase ^TM酶来闭合不带有模板的单链多核苷酸环。或者，使用与线性链的两末端互补的桥接模板。在一些实施方案中，利用第一衔接头向靶标序列的一个末端的添加来设计桥接模板的互补部分。另一末端可以是含有用于结合所有基因组序列的简并碱基的通用模板DNA。两末端发生杂交，继而连接，产生一个环化组分。或者，可以使用末端转移酶，通过添加聚dA尾(poly-dAtail)修饰靶标分子的3’末端。然后使用与衔接头和聚dA尾互补的桥接模板来环化经过修饰的靶标。

在另一个实施方案中，在用于指导连接的每个模板寡核苷酸中纳入生物素。这有助于的模板的轻易去除，例如通过应用高温熔解，其去除了模板而不去除形成的环。这些更长的寡核苷酸可以起RCR引物的作用或者用于其他目的，例如插入另外的盒。

在另一个实施方案中，可以将靶标DNA附接到一些固相支持物(例如磁珠或者试管/平板孔壁)上，以便于去除所有非共价地连接到靶标DNA的模板或者衔接头。可以使用带有随机引物的支持物来附接靶标ssDNA以延伸并产生dsDNA的大约20-80个碱基。可以通过时间或者通过ddNTPs的量来控制延伸长度。另一种途径是将衔接头连接到ssDNA的一个末端，然后大小选择带有连接到ssDNA的衔接头的DNA，同时去除游离的衔接头。在这种情况中，可以将与部分衔接头互补的、长度约为10-50碱基的锚序列附接到支持物，以捕捉DNA并将它用于随后的步骤。这种锚分子可以具有附加的成分以增加杂交体的稳定性，例如纳入肽核酸。附接单链DNA的另一种方法是通过使用附接于支持物的单链DNA结合性蛋白质。

在图2A中说明的一种环化方法中，在断裂和变性(202)基因组DNA(200)后，首先用末端转移酶(206)来处理单链DNA片段(204)以将聚dA尾(208)附接到3’末端。接着在桥接寡核苷酸(210)的帮助下分子内地连接(212)游离末端，所述桥接寡核苷酸在一个末端与聚dA尾互补，在另一末端依靠简并核苷酸区段与任何序列互补。桥接寡核苷酸(210)的双链体区域(214)含有至少一个用于RCR的引物结合位点，并且，在一些实施方案中，还含有提供捕捉寡核苷酸的互补物(complement)的序列，其与引物结合位点序列可以相同或不同，或者其可以与引物结合位点序列重叠。捕捉寡核苷酸的长度可以有很大的变化。在一个方面中，捕捉寡核苷酸和它们在桥接寡核苷酸中的互补物的长度范围是从10至100个核苷酸；并且更优选从10至40个核苷酸。在一些实施方案中，双链体区域(214)可以含有其它元件，例如寡核苷酸标签，例如用于鉴定其相关的DNA片段所来源的源核酸的标签。即，在一些实施方案中，可以分别制备来自不同源核酸的环或衔接头连接或多联体，在此过程中使用含有独特标签的桥接衔接头，之后将它们混合，用于制备多联体或者施加到表面以产生随机阵列。在这种随机阵列上，可以通过将经标记的标签互补物杂交到在多联体中与其相应的标签物序列，或者通过对整个衔接头或衔接头标签区域测序，来鉴定相关的片段。可以视情况利用常规纯化柱和/或利用一种或多种合适的外切酶消化非环形DNA，来分离环形产物(218)。

期望大小范围(例如50-600个核苷酸)的DNA片段的环化，可以使用环化酶，例如CircLigase，作为不需要模板而环化单链DNA单链DNA连接酶。形成包含DNA片段和一个或多个衔接头的单链DNA环的优选的方案是使用标准的连接酶，例如T4连接酶，用于将衔接头连接到DNA片段的一个末端，接着应用CircLigase以闭合环。

在示例的方法中，使用T4连接酶产生含有衔接头寡核苷酸和靶标序列的DNA环。使用的靶标序列是合成寡核苷酸T1N(序列：

5’-NNNNNNNNGCATA

NCACGANGTCATNATCGTNCAAACGTCAGTCCANGAATCNAGATCCACTTAGANTGNCGNNNNNNNN-3’)(SEQ ID NO:1)。衔接头是由2个单独的寡核苷酸构成。连接到T1N的5’末端的衔接头寡核苷酸是BR2-ad(序列:5’-TATCATCTGGATGTTAGGAAGACAAAAGGAAGCTGAGGACATTAACGGAC-3’)(SEQ ID NO:2)，而连接到T1N的3’末端的衔接头寡核苷酸是UR3-ext(序列：5’-ACCTTCAGACCAGAT-3’)(SEQ ID NO：3)。

UR3-ext含有IIs型限制性酶位点(Acu I：CTTCAG)以提供使DNA环线性化的途径，用于第二衔接头的插入。将BR2-ad退火到BR2-temp(序列：5’-NNNNNNNGTCCGTTAATGTCCTCAG-3’)(SEQ ID NO：4)以形成双链衔接头BR2衔接头。将UR3-ext退火到生物素化的UR3-temp(序列：5’-[生物素]ATCTGGTCTGAAGGTNNNNNNN-3’)(SEQ ID NO：5)以形成双链衔接头UR3衔接头。在含有50mMTris-Cl，pH7.8，10％PEG，1mM ATP，50mg/L BSA，10mM MgCl₂，0.3单位/μl T4 DNA连接酶(EpicentreBiotechnologies，WI)和10mM DTT的10μl终体积的单个连接反应物中，将1pmol靶标T1N连接到25pmol BR2衔接头和10pmol UR3衔接头。在以下温度循环程序中温育连接反应物：15℃进行11分钟，37℃进行1分钟，重复18次。通过在70℃加热10分钟以终止反应。通过用链亲和素磁珠(NewEngland Biolabs，MA)的捕捉连接的产物来去除过量的BR2衔接头。将3.3μl4x结合缓冲液(2M NaCl，80mMTris HCl pH 7.5)添加到连接反应物，然后与在1x结合缓冲液(0.5M NaCl，20mM Tris HCl pH 7.5)中的15μg链亲和素磁珠混合。在室温中温育15分钟后，用4倍体积的低盐缓冲液(0.15MNaCl，20mM Tris HCl pH 7.5)将珠子洗涤2次。将洗脱缓冲液(10mM TrisHCl pH7.5)预温至70℃，将10μl洗脱缓冲液在70℃添入珠子5分钟。在磁分离后，保留上清液作为初级纯化的样品。与上文类似地，可以通过用预结合有与BR2-ad反向互补的生物素化寡核苷酸BR-rc-bio(序列：5’-[生物素]CTTTTGTCTTCCTAACATCC-3’)(SEQ ID NO：6)来的磁珠去除过量UR3衔接头从而将样品进一步的纯化。

可以通过尿素聚丙烯酰胺凝胶电泳分析来估计在最终纯化的样品中的衔接头-靶标连接产物的浓度。环化反应使用含0.2单位/μl T4多核苷酸激酶(Epicentre Biotechnologies)的1mM ATP和供应商提供的标准缓冲液对连接产物进行磷酸化，然后使用0.3单位/μl T4 DNA连接酶(EpicentreBiotechnologies)和1mM ATP，与10倍摩尔过量的夹板(splint)寡核苷酸UR3-闭合(closing)-88(序列5’-AGATGATAATCTGGTC-3’)(SEQ ID NO：7)一起进行环化。通过进行RCR反应来验证环化的产物。

在图2A中说明的另一个示例的实施方案中，通过在图2A中说明的方法，使用衔接头寡核苷酸(1604)形成(1608)的DNA环的群体(1608)。在一个方面中，群体(1608)的每个成员具有衔接头，所述衔接头带有相同的锚探针结合位点和IIs型识别位点，并附接到来自源核酸(1600)的DNA片段。衔接头还具有其他功能元件，包括但不限于标记序列、附接到固相表面的序列、限制位点、功能化序列等。可以通过提供具有不同锚探针结合位点的衔接头来产生多个类型的DNA环。

形成DNA环(图2A，1608)后，如在图2A中概示的那样将更多的散在衔接头插入以形成含有散在衔接头的环(1612)。可以对这些环添加引物和滚环复制(RCR)试剂以在常规的RCR反应中产生(1614)衔接头寡核苷酸和DNA片段的互补物的多联体(1617)【concatemers of the complementsof the adaptor oligonucleotide and DNAfragments】的群体(1616)。然后可以使用常规技术，例如常规旋转柱等，来这种群体进行分离或用其他方式处理(例如大小选择)，以形成用于分析的群体(1620)。

为了表明多衔接头的DNA环的形成是可行的，可以获得长度为70个碱基的合成的靶标DNA和长度为200-300bp的PCR来源的片段。通过磷酸化其中一个引物然后用λ外切酶处理以去除磷酸化的链，可以从双链产物简单地得到单链PCR片段。可以将单链片段连接到衔接头用于环化。可以如这里所描述的那样进行聚合、IIs型限制性酶消化和与新衔接头再连接。

可以通过最终获得的环的RCR扩增来显示该方法是成功的。简而言之，将DNA环与同最后导入的衔接头互补的引物和phi29聚合酶在30℃温育1小时以产生包含最初的DNA环的数百个重复拷贝的单个多联体分子。可以利用多联体中的衔接头序列将RCR产物附接到盖玻片的表面，所述衔接头序列与所述表面上附接的寡核苷酸互补。可以利用衔接头独特探针(adaptorunique probe)的杂交来显示各个衔接头掺入了环中并最终地掺入了RCR产物。为了表明在环内的期望的位置上掺入了衔接头，可以将序列特异的探针(标记的5聚体)用于合成的序列或PCR来源的序列，使得识别衔接头末端序列的未标记锚探针可发生杂交。还可以用克隆和测序来证实DNA的完整性。

在一个实施方案中，还可以将用于环形成的模板用作引物以产生局部化(localized)的dsDNA。通过在每次环切割后产生干净的ssDNA，使得各次衔接头的掺入可以使用相同的环闭合化学法，从而简化该方案。

在一个实施方案中，制备带有粘性末端或平末端的DNA片段的溶液用于产生DNA环。避免产生带有一个以上DNA分子的环的传统方法是，在大体积中，在难以发生分子间连接的低DNA片段浓度下进行连接。

在优选的实施方案中，连接反应不需要大体积。这种实施方案涉及将等份的DNA片段缓慢地添加入规则大小的连接反应物。通过将DNA等份和反应物快速混合最大程度地减少多聚体的形成。可以在不含有连接酶的连接混合物中或在水或TE类缓冲液中制备DNA片段。典型地，DNA体积等于或者小于连接反应的起始体积。如果连接反应物以添加DNA样品的速度蒸发，则DNA可处于大体积的水或者简单缓冲液(例如TE缓冲液)中。可以通过使用热稳定的连接酶来简化蒸发过程。

在一个实施方案中，环化的方法涉及将小等份的DNA稀释到规则的连接反应物中(例如，0.1-0.5μl稀释于10-50μl中可提供超过100倍的稀释)并且等待足够的时间以容许大多数DNA形成环，接着添加第二个等份。在另一个实施方案中，缓慢而连续地添加DNA片段。

该方法有多种可能的物理实施方式，例如以某一频率手动或者自动移液，使用滴头(重力或正压力)、压电喷射(piezo spiting)或声音喷射(acousticspiting)或纳米滴管(nanodropper)、cavro泵(cavro-pumps)的使用可以递送小至30nl的液滴。在一个实施方案中，含10pmol的100μl的反应物(最大临时浓度(temporal concentration)为1fmol/ul)是使用100个等份的连续添加来处理的。在另一个实施方案中，10pmol分成30-50μl的等份。环化一个等份中>70-80％的DNA片段所用的时间依赖于连接酶浓度、末端类型(粘性的1、2或者4个碱基或者平的)，在一定程度上也依赖于温度(粘性末端的运动和杂交体的稳定性)。在优选的实施方案中，反应的总时间是约4-16小时。

在一个实施方案中，将连接酶固定在固相支持物上，例如珠子。然后使用本领域中已知的方法使DNA片段从凝胶块或者其他多孔的容器中扩散入连接反应物中。为了预防片段间的连接(而非环化)，可以使用本领域中已知的用于暂时封闭DNA的方法，包括但不限于使用带有匹配的粘性末端的无连接能力的DNA或者ssDNA末端结合蛋白质。

为了增加小反应体积的流通(flow-through)的效率，在一个实施方案中，在非蒸发条件下分配反应体积，例如通过使用小滴。还可以通过调节支持物周围环境的湿度和温度，和通过反应缓冲液的成分的设计来确立非蒸发条件。在示例的实施方式中，通过piezo spitting(～20 x 20 x 20微米)来分配10pl液滴。在不展开的情况下，这等于20微米厚度的流动池。可以促进展开以进一步降低该体积的厚度到大约5-10微米。在零展开的条件下，为了用10pl液滴来覆盖1cm²，可以使用100 x 50 x 50＝250,000个液滴。

除了piezo途径外，还可以使用其它将少量缓冲液平均施加于大表面(delivery of low amount of buffer per large surface)的形式，例如通过将支持物与用反应缓冲液填满的多孔材料接触，或者使带有便于分配缓冲液的10-30微米孔隙的长狭缝(slit)沿着整个表面移动(move a long slit across the surfacewith a few 10-30micron openings allowing dispensation of the buffer)。

环化的一个示例方法涉及使用两条被封闭的互补链来将单个衔接头连接到dsDNA。在这种方法中，独立地制备衔接头的两条互补链。还为两条互补链中的每条链产生具有尿嘧啶并不可以连接到靶标DNA的匹配封闭性寡核苷酸(matching blocking oligo)。组装包含一条衔接头链和一条封闭性寡核苷酸的dsDNA产物。设计两种组装的dsDNA构建体，它们不能相互连接或杂交；所述构建体可以是平末端或可以具有T突出端或者其他突出端，用于连接DNA靶标。将这两种构建体的混合物连接到平末端dsDNA或者带有相应的粘性末端的DNA。大约50％的DNA将具有每种构建体各一个；另外50％将具有同一种构建体两个。然后降解封闭性寡核苷酸，并且通过互补链的杂交和连接来闭合环。

在一个实施方案中，衔接头可以是回文的，以避免方向的差异(distinction of orientation)。这种途径可以提供比A/T连接途径更高的产率，这依赖于平末端连接效率和在A/T连接反应中的DNA的浓度。在进一步的实施方案中，使用了四种ssDNA衔接头成分替代二种ssDNA衔接头成分。

产生多联体的方法

在本发明的一个方面中，单个的分子组成多核苷酸的多联体，所述多核苷酸通常是多核苷酸分析物，即常规的滚环复制(RCR)反应中产生的靶标序列。关于选择RCR反应的条件和试剂的指导可见于许多本领域的技术人员可获得的参考文献中，如下面所证明的(通过提述并入它们的内容)：Kool，美国专利5,426,180；Lizardi，美国专利5,854,033和6,143,495；Landegren，美国专利5,871,921等。通常而言，RCR反应组分包括单链DNA环、与DNA环退火的一个或多个引物、具有链取代活性的DNA聚合酶(用以延伸与DNA环退火的引物的3’末端)、核苷三磷酸和常规的聚合酶反应缓冲液。在这样的条件下混合这些组分：使得引物能够退火到DNA环并被DNA聚合酶延伸以形成DNA环的互补物的多联体。示例RCR反应方案如下：在50μL反应混合物中合并下列成分：2-50pmol环DNA、0.5单位/μL噬菌体

29DNA聚合酶、0.2μg/μL BSA、3mM dNTP、1X

29DNA聚合酶反应缓冲液(Amersham)。将RCR反应在30℃进行12小时。在一些实施方案中，聚合酶反应中的环DNA浓度可以选择低一些(大约每ml100-1000亿个环，或者每皮升10-100个环)以避免缠结(entanglement)和其他分子间相互作用。

优选地，通过RCR产生的多联体在大小上近似均一；因此，在一些实施方案中，产生本发明的阵列的方法可以包括大小选择(size-select)多联体的步骤。例如，在一个方面中，多联体经过如此的选择，使得它们作为一个群体的分子量变异系数少于约30％；在另一实施方案中，少于约20％。在一个方面中，通过以下方式来进一步改进大小的一致性：将低浓度的链终止物(chain terminators)，例如ddNTP，添加到RCR反应混合物，以减少超大型多联体(例如被聚合酶以更高的速率合成的DNA环所产生的)。在一个实施方案中，所使用的ddNTP浓度导致在50至250Kb或者在50-100Kb范围中的期望的多联体大小。在另一个实施方案中，使用常规分离技术，例如大小排阻层析、膜过滤等，可以富集特定大小范围内的多联体。

在图2A中说明了用于产生多联体的示例的方法。形成DNA环(1608)后，如在图2A中所概示的，将另外的散在衔接头插入以形成含有散在衔接头的环(1612)。对于这些环，可以添加引物和滚环复制(RCR)试剂以在常规RCR反应中产生(1614)衔接头寡核苷酸和DNA片段的互补物的多联体(1617)的群体(1616)。然后可以使用常规技术，例如常规旋转柱等，来对该群体进行分离或者其他方式的处理(例如大小选择)(1618)以形成用于分析的群体(1620)。

可以从源核酸，例如基因组DNA，通过断裂以产生0.2-2kb大小的片段，或者更优选地，0.3-0.6kb大小的片段，以产生靶标多核苷酸，然后可以将其环化用于RCR反应。

在另一个方面中，本发明提供了产生多个含有散在衔接头的靶标多核苷酸的多联体的方法和组合物。在一个实施方案中，可以通过RCR来产生这些多联体，如图1C-1D所述。

滚环复制是产生本发明的多联体的优选的方法。已显示RCR方法可产生M13基因组的多个连续的拷贝。(Blanco，et al.，(1989)J Biol Chem264：8935-8940)。在这种系统中，将期望的DNA片段“克隆”进DNA衔接头并且通过线性多联体化来复制。靶标DNA直接地处于适合于杂交和酶方法学的形式，而不需要在细菌中传代(passage)。

RCR方法依赖于使期望的靶标分子首先形成环形底物。这种线性扩增使用原始的DNA分子，而不是拷贝的拷贝，因此确保序列的保真性。作为环形实体，该分子充当链取代聚合酶(strand displacing polymerase)的无端点(endless)模板，所述聚合酶延伸与环的一部分互补的引物。连续的链延伸产生长的单链DNA，其由数百个包含多个拷贝的与环互补的序列的多联体组成。

产生阵列的方法

在一个实施方案中，将乳液PCR用于产生排列到阵列上的扩增子。如在图1B中所说明，破乳(1505)后，可以将含有散在序列的克隆的珠子(1512)在固相表面(1522)上排成阵列(array)，用于序列分析。珠子的这种排列可以是随机的，如图1F中所示，其中在排列前不确定珠子的位置，或者该排列可以是依照结合位点(1524)的预定模式，即使随机确定在这些位点上的珠子的分布。在这里的这两种分布称为“随机阵列”(random arrays)。

为了获得以亚微米点形式存在的、紧凑(compact)而致密的DNA束，可以利用扩增分子的某个区域与附接至玻璃的捕捉探针杂交。数百个捕捉探针分子(以大约10nm间隔的分开)可以使靶标分子的数百个串联拷贝保持紧密结合于小于直径为500nm的玻璃表面区域。在一个实施方案中，应用玻璃活化化学法产生异硫氰酸盐(isothiocyanate)活性基团的单层，用于附接胺修饰的捕捉寡核苷酸。

一般而言，单个分子的密度经过选择，使得至少20％，或者至少30％，或者至少40％，或者大多数分子可通过所用的信号生成和检测系统来个别地分辨。在一个方面中，选择这样的密度，使得至少70％的单种分子可被个别地分辨。在一个方面中，每当使用扫描电子显微术时，例如采用具有金纳米颗粒标记的分子特异性探针(例如Nie et al(2006)，Anal.Chem.，78：1528-1534，通过提述并入)时，选择这样的密度，使得至少大多数的单个分子具有50nm或更大的最近邻距离(nearest neighbor distance)；并且在另一个方面中，选择这样的密度，以确保至少70％的单个分子具有100nm或更大的最近邻距离。在另一个方面中，每当使用光学显微术时，例如带有具有荧光标记的分子特异性探针时，选择这样的密度，以使至少大多数单分子具有200nm或更大的最近邻距离；在另一个方面中，选择这样的密度，以确保至少70％的单分子具有200nm或更大的最近邻距离。在另一个方面中，每当使用光学显微术时，例如利用具有荧光标记的分子特异性探针时，选择这样的密度，以使至少大多数单分子具有300nm或更大的最近邻距离；并且在另一个方面，选择这样的密度，以确保至少70％的单分子具有300nm或更大的最近邻距离，或者400nm或更大的最近邻距离，或者500nm或更大的最近邻距离，或者600nm或更大的最近邻距离，或700nm或更大的最近邻距离，或800nm或更大的最近邻距离。在另一个实施方案中，每当使用光学显微术时，选择这样的密度，以使至少大多数单分子具有为显微镜的最小特征分辨能力至少两倍的最近邻距离。在另一个方面中，将本发明的聚合物分子布置在表面上以使单独可检测的聚合体分子的密度至少是1000/μm²，或至少是10,000/μm²，或至少是100,000/μm²。

在本发明的另一个方面，通过在表面上提供离散间隔区(discrete spacedapart regions)，所述离散间隔区是基本上唯一的用于附接单分子的位点，从而不再需要选择随机布置的单分子的密度以确保期望的最近邻距离。即，在这些实施方案中，表面上的离散间隔区之间的区域，本文中称为“区间区域”，在下面的意义上是惰性的：即多联体或其他大分子结构不结合到这些区域。在一些实施方案中，可以用封闭剂，例如与多联体不相关的DNA、其他多聚物等，来处理这些区间区域。一般而言，对离散间隔区的面积以及所用的附接化学法、大分子结构等加以选择，使它们与本发明的单分子的大小相应，使得当将单分子们施加于表面时，基本上每个区域都由不超过一个(no more than one)单分子占据。可以通过以下方式来增加每个离散间隔区仅有一个单分子的可能性：选择反应官能团(reactive functionalities)或捕捉寡核苷酸的密度，使得这些模块少于它们在单分子上的各自的互补物。因此，一个单分子将“占据”针对一个特定离散间隔区的表面的所有联结，由此降低了第二单分子也结合到同一区域的机会。特别的是，在一个实施方案中，离散分隔区中基本上所有的捕捉寡核苷酸均与衔接头寡核苷酸单个大分子结构杂交。在一个方面中，离散间隔区含有的反应官能团或者捕捉寡核苷酸的数目是单分子的互补官能团或衔接头寡核苷酸数目的约10％至约55％。捕捉寡核苷酸的长度和序列可以在很大的范围内变化，并且可以将其根据公知的原理加以选择，例如Wetmur，Critical Reviews inBiochemistry and Molecular Biology，26：227-259(1991)；Britten and Davidson，chapter 1 in Hames et al，editors，Nucleic Acid Hybridization：A PracticalApproach(IRL Press，Oxford，1985)。在一个方面中，捕捉寡核苷酸的长度范围是从6至30个核苷酸，而在另一个方面，从8至30个核苷酸，或者从10至24个核苷酸。选择捕捉寡核苷酸的长度和序列(i)以提供大分子结构与表面的有效结合，从而最小化在分析操作的步骤，例如清洗等期间大分子结构的损失，并且(ii)以避免干扰对受检分子的分析操作，特别是在受检分子是在多联体中的DNA片段时。对于(i)，在一个方面中，选择序列和长度以提供捕捉寡核苷酸和它们的互补物之间所成的双链体，所述双链体足够稳定以使它们在严紧清洗中不解离。对于(ii)，如果DNA片段是来自生物物种，那么可以使用数据库(如果可用)来筛选可能与DNA片段形成假杂交体或非期望的杂交体的捕捉序列。选择捕捉寡核苷酸的序列的其他因素和选择引物、杂交探针、寡核苷酸标记物等中考虑的那些相似，关于这些的指导有很多，如下列在定义部分中引用的参考文献。

在一个方面中，离散间隔区的面积小于1μm2；并且在另一个方面中，离散间隔区的面积范围是从0.04μm²到1μm²；在另一个方面中，离散间隔区的面积范围是从0.2μm²到1μm²；在另一个方面中，离散间隔区近似为环形或方形，因此可以用单一线性尺寸来表明它们的大小，这些区域的大小范围从125nm至250nm或者从200nm至500nm。在一个方面中，这些区域与最近邻的中心到中心距离的范围是从0.25μm至20μm；在另一个方面中，这些距离范围为从1μm至10μm；或从50至1000nm。优选地，将用于固定多联体的间隔区布置成直线或六边形模式。

在一个实施方案中，将间隔DNB(spacer DNB)用于制备供受试DNB附接的表面。首先捕捉寡核苷酸来覆盖表面，所述捕捉寡核苷酸与存在于两种类型的合成DNB上的结合位点互补：一种是捕捉DNB，另一种是间隔DNB。间隔DNB不具有与受试DNB的制备中使用的衔接头互补的DNA区段，并且其用量相对捕捉DNB为约5-50倍，优选10x过量。用合成DNB(通过链连接或通过RCR来制备)的混合物来“饱和”带有捕捉寡核苷酸的表面，在所述合成DNB混合物中间隔DNB的用量相对捕捉DNB过量约10倍(或5至50倍)。因为间隔DNB和捕捉DNB之间的比率约为10:1，捕捉DNB大多是间隔DNB的海洋中的孤岛。10:1的比率规定，两个捕捉DNB平均起来被两个间隔DNB所分开。如果DNB直径约为200nm，那么两个捕捉DNB的中心到中心间距约为600nm。然后将这种表面用于附接受试DNB或者具有与捕捉DNB的区域互补而不存在于间隔DNB中的结合位点的其他分子结构。

制备捕捉DNB，使其具有的拷贝比在受试DNB中的结合位点的数量少，从而确保每个捕捉DNB点附接单个受试DNB。因为受试DNA仅可结合到捕捉DNB，因此可以制备具有高位点占用率而无集聚(congregation)的受试DNB阵列。由于附接是随机的，表面上的一些区域可能没有附接任何DNB，但是这些带有游离捕捉寡核苷酸的区域可能无法结合受试DNB，因为它们被设计成不具有针对捕捉寡核苷酸的结合位点。本发明的阵列可以也可以不排布成网格图案(grid pattern)。

一方面，使用印刷头(printing head)或者压印底版(imprint-master)来制备亚微米大小的捕获寡核苷酸点的高密度阵列，所述印刷头或者印刷底版是由10,000至1亿根带有核心(core)和包层材料的光纤所成的光纤束或者光纤束的束制备的。通过适当地拉伸和熔化纤维，可以产生一种独特的材料，其具有约50-1000nm的核心，这些核心被相似大小或小2-5倍或者大2-5的包层材料所分开。在一个实施方案中，包层材料的差分蚀刻(溶解)提供了具有数量极多的纳米大小的柱子(post)的纳米印刷头。可以将这种印刷头用于沉积寡核苷酸或者其他生物化合物(蛋白质、寡肽、DNA、适体)或化学化合物，例如带有不同活性基团的硅烷。

在一个实施方案中，可以将玻璃纤维工具用作带图案的(patterned)支持物以沉积寡核苷酸或其他生物或化学化合物。在这种情况中，仅有由蚀刻产生的柱子可与待沉积的材料接触。在另一个实施方案中，可以利用熔合纤维束的平切口(flat cut)来引导光通过核心，并使得光诱导的化学作用仅发生在核心的尖端表面上，因此不再需要蚀刻。在这两种实施方案中，都可以再将同一支持物用作引导/收集光的装置，用于对荧光标记的成像，其中所述荧光标记用于给寡核苷酸或其他反应物加标签。这种装置提供了大数值孔径(可能>1)的大视野(field ofview)。

可以利用执行活性材料或者寡核苷酸的沉积的冲压工具或印刷工具，以交织(interleaved)图案印刷出2至100种不同的寡核苷酸。可以将这种类型的寡核苷酸阵列用于附接2至100个不同的DNA群体，例如来自不同源DNA的群体。通过使用DNA特异性锚或标签，还可以将它们用于从亚光分辨率点(sub-light resolution spots)的平行读取。可以通过DNA特异性标签(例如针对16种DNA的16种特异性锚)来访问信息，并且结合5-6种颜色，使用16轮连接循环或一轮连接循环和16轮解码循环来读取2个碱基。

在本发明的实施方案中，可以使用照相平板印刷术(photolithography)、电子束光刻法(electron beam lithography)、纳米压印光刻法(nano imprintlithography)和纳米印刷法(nano printing)在多种的表面上产生这些图案，例如Pirrung et al，美国专利5,143,854；Fodor et al，美国专利5,774,305；Guo，(2004)Journal of Physics D:Applied Physics，37：R123-141，这里通过提述将它们并入。可以将这些技术用于产生在十分之一微米级上的特征图案，已将这些技术开发用于半导体工业中。在优选的实施方案中，在DNA阵列基片上进行单次“掩蔽”(masking)操作，而与之相对的是，即使生产简单的半导体也需要20至30次掩蔽操作。使用单次掩蔽操作使人们无需对同一基片准确地排列许多掩膜。也不需要材料的掺杂。图案中的小缺陷对阵列的使用性的影响很小甚至没有影响，因此使得产率可接近100％。

在一个实施方案中，高密度结构随机DNA阵列芯片的捕捉寡核苷酸集中在相互分离的小捕捉池中，这些捕捉池排列成矩形网格构造(图4)。优选地是，每个捕捉池或者结合位点被惰性表面所围绕，并且其可以具有足够但有限数量的捕捉分子(100-400个)。每个捕捉分子可以结合由RCR产生的DNA多联体上一个拷贝的匹配衔接头序列。因为每个多联体含有超过1000个拷贝的衔接头序列，因此它一旦接触结合位点就能快速地将其饱和并阻止其他多联体的结合，导致在每个结合位点或点上排他地附接一个RCR产物。通过提供足够的RCR产物，在阵列上的几乎每个点可以含有一个并且仅一个独特的DNA靶标。

RCR的“分子克隆”使饱和/排他(单占据)原理在随机阵列的制备中得以应用。如果改为使用原位扩增，那么在制备单分子阵列中排他方法是不可行的。RCR多联体提供了对形成小而不混合的DNA点而言最优的大小。估计每个约100kb的多联体占据约0.1 x 0.1 x 0.1μm的空间，从而使RCR产物恰好可进入100nm捕捉池。RCR产物的一个优势在于单链DNA可以立即用于杂交，并且具有很高的柔性，易于形成无规卷曲的DNA球。由RCR产生的1000个拷贝的DNA靶标提供的特异性大大高于对单分子的分析所可能提供的特异性。

在本领域中有已知的用于产生带图案的DNA芯片的方法。在一个优选的实施方案中，在芯片上的所有点具有相同的捕捉寡核苷酸，点大小为0.2-0.3微米，间距(pitch)为0.5微米。可以将纳米印刷法用于产生这些图案，因为它们不需要开发新的寡核苷酸附接化学法。

纳米压印技术依赖于经典的照相平板印刷技术以产生母模(mastermold)。然后使用聚合体，例如PMMA或PDMS来复制母模。一旦固化，这些聚合体形成母模的阴模(negative mold)。然后将该模用于在片基上“印刷”材料的图案。纳米压印技术可以用于在玻璃、硅和金表面上产生蛋白质轮廓(feature)。在一个示例性的实施方案中，利用母模产生许多冲压装置并且每个冲压装置可以产生许多化学物质(例如寡核苷酸溶液、寡核苷酸结合或者玻璃活化化学物质)的印迹。先进的纳米印刷技术可以产生小至10nm的轮廓，因此可以常规地产生适于荧光检测的大小为>200nm的轮廓，包括在中心至中心距离为1000微米的300-500nm的轮廓。

可以用不同的化学修饰改变表面性质，增加母模与多种材料的兼容性，从而容许使用轮廓小、密度低的模来产生高密度的阵列。在一个实施方案中，可以用4μm轮廓间距(pitch)的模通过在4x4网格中对相同基片印刷16次来在基片上产生1μm的轮廓间距。

在一个方面中，一种产生DNA阵列的方法使用抗光蚀剂的薄层以在官能化过程期间保护基片表面的多个部分。在官能化后将形成图案的抗光蚀剂去除，留下活化的区域的阵列。第二种方法将经过修饰的寡核苷酸的单层附接于基片。所述寡核苷酸是可光裂解的(photo-cleavable)保护基团修饰的。这些保护基团可以通过暴露于光源而去除，从而容许捕捉寡核苷酸的图案化的连接(patterned ligation)，用于通过杂交附接DNB。

在另一个实施方案中，用100-500nm的抗光蚀剂厚层来旋转涂敷商业上可获得的光学平坦的石英晶片。将抗光蚀剂烘焙(baked)到石英晶片上，并且使用一般称为步进器(stepper)的机器来将带有待活化点的图案的光罩(reticle)的图像投射到抗光蚀剂的表面上。曝光后，显影抗光蚀剂，去除投射的图案中暴露于UV源的区域。这可通过等离子体蚀刻，一种能够产生非常细微细节的干式显影技术来完成。然后将晶片烘焙以强化残余的抗光蚀剂。

烘焙后，石英晶片可用于官能化。然后对晶片进行3-氨基丙基二甲基乙氧基硅烷(3-aminopropyldimethylethoxysilane)——同一单体在目前的官能化方法中使用——的气相淀积。氨基官能化单体的密度可以通过改变单体浓度和基片的暴露时间来严密地控制。只有被等离子体蚀刻暴露的石英区域才可与单体反应并捕捉单体。然后再次烘焙晶片以将氨基官能化的单体的单层固定到暴露的石英上。烘焙后，可以使用丙酮将残余的抗光蚀剂去除。因为抗蚀剂和硅烷之间的附接化学作用的不同，基片上的氨基硅烷官能化的区域可以在整个丙酮漂洗过程中保持完整。这些区域可以通过将它们在吡啶和N-N-二甲基甲酰胺(N-N-DiMethlyFormamide)的溶液中与对次苯基二异硫氰酸盐(p-phenylenediisothiocyanate)反应来进一步地官能化。这样基片就可以与胺修饰的寡核苷酸兼容。或者，可以用5’-羧基-改性剂-c10(Glen Research：http://www.glenres.com/ProductFiles/10-1935.html)来制备寡核苷酸。这种技术使得寡核苷酸直接地附接到胺基修饰的支持物，由此避免了额外的官能化步骤。

在另一个实施方案中，使用了纳米压印光刻(NIL)方法，其首先是产生母印压工具。这种工具使用高分辨率电子束光刻法来产生，并且，取决于利用的NIL聚合体，可以用于产生大量的压印。为了生成DNA阵列，用抗蚀剂层来旋转涂敷石英基片，该层通常称为转移层。然后将第二种类型的抗蚀剂施加到转移层上，该层通常称为印压层。然后母印压工具在印压层上产生压印(impression)。然后通过等离子体蚀刻来降低印压层的总厚度，直至印压(imprint)的低区(low area)达到转移层。由于转移层比印压层更难除去，因此基本上不动它。然后通过加热硬化印压层和转移层。然后将该基片放回等离子蚀刻机，直至印压的低区达到石英。然后通过气相淀积来衍生化基片，如在方法1a中所描述。

在另一个实施方案中，使用了纳米印刷方法。这种方法使用照相平板印刷术、印压或电子束光刻法来产生母模。用于制备纳米印压工具的技术有许多种变化。在一个示例性的方法中，产生作为在印刷头上需要的轮廓的负像的母模。印刷头通常是由柔软而易曲的聚合体，例如聚二甲基硅氧烷(PDMS)构成。将这种材料或者具有不同性质的材料的层旋转涂敷到石英基片上。然后在受控的温度和压力条件下，利用该模使轮廓凸出在抗蚀剂物质的顶层上。然后对印刷头进行基于等离子体的蚀刻处理以改善印刷头的纵横比，并且消除因凸出材料随时间松弛而引起的印刷头的变形。用印刷头将胺修饰的寡核苷酸的图案沉积到均匀衍生化的表面上。这些寡核苷酸发挥DNB的捕捉探针作用。纳米印刷的一个优势在于能够将不同捕捉探针的交织图案印刷到随机阵列支持物上。这可以通过用多个印刷头的连续印刷来实现，其中每个所述印刷头具有不同的图案，并且所有的图案拼在一起形成最终结构的支持物图案。这些方法为随机阵列内的DNA元件的位置编码提供了可能。例如，可以将含有特异性锚序列的对照DNB以规则的间隔结合到整个随机阵列上。

还可以用电子束光刻法产生基片。这种方法非常类似于照相平板印刷术，只是使用电子束枪来将图案直接地绘制在特殊的抗蚀剂材料上。这种方法的益处在于与UV照相平板印刷方法相比，轮廓大小可以更小并且更精确。其潜在的缺点是，产生图案所需的时间量是大约每片基片数个小时，而使用光刻法仅需几秒，NIL所需不到一分钟。

在一个实施方案中，使用光可裂解的改性剂，也称为保护基团，来产生阵列。在这种方法中，可以通过使用商业上可获得的用于寡核苷酸的光可裂解的改性剂，例如获自Glen Research的PC接头亚磷酰胺来产生捕捉池。将带有5’光可裂解的保护基团(在这种情况下是DMTO)的寡核苷酸的3’末端附接到完全官能化的石英片上。暴露的区域失去它们的保护基团，留下5’磷酸。使用寡核苷酸连接，如果如下文所描述提供模板寡核苷酸，那么将与RCR产物的衔接头区域互补的捕捉寡核苷酸连接到暴露的磷酸基团上：

(在表面上的寡核苷酸)

|------cttactgtgc-P OH-ggactaccgtttagg..cccgtgg(捕捉寡核苷酸)

gaatgacacg...........cctgatggca(单个模板寡核苷酸；)

在捕捉寡核苷酸连接于脱保护的表面寡核苷酸后，可以将整个基片暴露于UV源以去除残余的保护基团。游离的磷酸基团可以通过连接发夹样的寡核苷酸来加以封闭，以防止在测序方法中使用的标记的探针连接到支持物寡核苷酸上。

在制作方法中使用的抗光蚀剂物质一般是相当疏水的，并且在那种材料中产生的图案由非常小的孔组成。可能的是，由于抗光蚀剂的疏水作用，石英的暴露表面可能不会与氨基官能化单体的水溶液接触。为了避免这个问题，本发明的一个实施方案是使用超声以迫使液体通过掩膜中的小开口。还可能的是将少量的表面活性剂、丙酮或其他添加剂放入溶液以破坏水的表面张力。以这种方式使用溶剂可能使掩膜材料些微地膨胀，但是不会将它溶解。如果抗蚀剂材料与氨基官能化的表面在抗蚀剂去除处理期间是不相兼容的，例如它可能与胺基反应并破坏胺基，那么可能的是使用聚合体薄片上的丙烯酸基强粘合剂来进行抗蚀剂材料的机械剥离。

在制备每批DNA阵列基片后，重要的是确定该批次是否达到规格。规格可以在掩膜设计和生物化学优化阶段期间来确定。为了每批基片的质量控制，可以将FITC或者带有任何荧光标记的胺修饰的寡核苷酸附接到反应性表面，并观察基片表面上荧光的强度和图案。活性区域的总强度可能与捕捉池中的反应性位点的密度成比例。目前的显微镜系统具有100x，1.4NA镜头，该镜头具有约180nm的理论分辨能力。目前的图像采集系统的灵敏度是每个像素约3个染料分子，而且每个像素成像基片的60x60nm区域。期望其能够在每60nm²区域附接10-50个捕捉寡核苷酸。这容许高精确度地直接测量附接效率和基片的网格性质。每个捕捉池可以由大概10个像素来成像。

使用QC数据库，有可能确定哪个基片制备步骤需要改进。在该过程中的这个点上，捕捉池之间的强度差异指向官能化处理期间非均一的反应条件或抗光蚀剂层的非统一的显影。如果池与池之间存在有桥接，那么表明抗光蚀剂材料从石英表面分层，或者在暴露过程发生了某些差错。信号强度的问题表明官能化步骤的控制不佳。随着该方法的成熟，一定会发展出其他度量标准。

复制阵列

在本发明的一个方面中，将在母阵列(master array)上合成的互补的多核苷酸转移到复制阵列(replica array)上。为了完成这种转移，可以将两个表面在加热条件下接触，以变性dsDNA并释放新产生的DNA链。在另一个实施方案中，转移通过施加电场来完成，以区别性地仅转移带电荷比引物高约5-50倍的复制DNA。在进一步的实施方案中，在转移的链杂交后，联合施加反向电场并降低温度，以将引物移回母阵列。在一个通过施加电场来完成转移的实施方案中，优选使用多孔玻璃以便于施加电场。

在一个实施方案中，将捕捉寡核苷酸设计成对应于扩增子的与引发位点相对方向的末端，以确保排他地保留全长拷贝。具有九种或更多种不同捕捉寡核苷酸的图案使从母阵列转移DNA过程中发生“串话”(“crosstalk”)的机会最小化。在一个实施方案中，转移不用进一步扩增复制阵列上的DNA；还可以利用向同一复制物进行多次转移以产生较强烈的信号。在另一个实施方案中，多个复制物的产生可以通过从母阵列进行部分转移，并在每个复制阵列中进行DNA扩增。

在一个示例性的实施方案中，复制阵列的基片含有引物，用来利用附接在第一阵列上的模板DNA启动DNA的合成。在DNA聚合酶、dNTP和合适的缓冲液的存在下，于最适温度，将母阵列表面与“将形成的”复制阵列的支持物接触，然后将引物分子与母阵列上的模板DNA杂交，并且被聚合酶所延伸。可以使用阻化剂，例如dsDNA，在一个拷贝的末端处终止DNA。通过升高温度或者通过使用其他的DNA变性剂，DNA链可以分开并且可以将复制阵列与第一阵列分开。为了避免原始DNA从母阵列中被去除，可以将原始DNA直接(或者通过捕捉寡核苷酸而间接地)共价附接到母阵列的支持物上。

可以使用本领域中已知的不同方法来将附接到复制阵列的任何不完整的DNA在完成复制反应后特异性地去除，例如通过对具有特定末端的完整分子的保护性连接——然后可以去除不完整的分子而不损失完整的分子。

在一个实施方案中，引物覆盖了用于阵列制备的全部基片表面。每平方微米10,000个引物的密度提供的两个支持物间一微米中的局部浓度，与PCR中使用的浓度相似或者比PCR中使用的浓度高约10倍。引物可以具有很长的附接接头以能够触及第一阵列的支持物上的DNA模板。在这种方法中，不存在DNA扩散的可能性并且复制物DNA点可能仅比最初的点略大。可以使用非常平坦的表面以确保两个平面的紧密接近。在一个实施方案中，DNB提供了足够的约300-500nm的DNA环，在与100nm引物接头混合时，有助于容忍表面的缺陷。

可以用复制阵列产生进一步的复制物。第二代复制物将具有与最初的阵列相同的DNA链。

可以将复制阵列用于同一DNA片段集合的平行分析，例如与大量的探针或探针库的杂交。在另一个实施方案中，可以复制含有基因组片段的自我组装的DNA母芯片(master chip)以产生许多不需要解码的检测芯片，因为它们与同一已解码的母芯片匹配。因此，阵列的复制使得我们以最小的解码花费制备自我组装的DNA阵列，因为可以用一个母阵列和它的复制物产生数千个最终的阵列。

捕捉寡核苷酸的结构

在一个实施方案中，表面(图1C和1D--1622)上所附接的捕捉寡核苷酸可能与多联体中的衔接头寡核苷酸的区段(例如锚结合位点或其他元件)形成复合体，例如双链体。在其他的实施方案中，捕捉寡核苷酸可以包含寡核苷酸夹(oligonucleotide clamp)等结构，它与衔接头寡核苷酸形成三链体，例如Gryaznov et al，美国专利5,473,060。在另一个实施方案中，表面(1622)可以具有反应官能团，所述反应官能团与在多联体上的互补官能团反应以形成共价键，例如使用与将cDNA附接到微阵列的技术相同的技术，例如Smirnov et al(2004)，Genes，Chromosomes & Cancer，40：72-77；Beaucage(2001)，Current Medicinal Chemistry，8：1213-1244，这里将通过提述将它们并入。

一方面，在不需要酶促处理时，捕捉寡核苷酸可以包含非天然的核苷单位和/或键，其赋予有利的性质，例如增加的双链体稳定性；这些化合物包括但不限于肽核酸(PNA)、锁定核酸(LNA)、寡核苷酸N3′→P5′氨基磷酸酯、寡-2’-O-烷基核糖核苷酸等。

随机阵列的结构

一方面，可以通过多种技术中的任何技术，包括共价附接和非共价附接，来将多联体(1620-图1C和1D)固定到表面(1622)。在一个实施方案中，表面(1622)上所附接的捕捉寡核苷酸可以与多联体中的衔接头寡核苷酸的区段(例如锚钩结合位点或其他元件)形成复合体，例如双链体。在其他的实施方案中，捕捉寡核苷酸可以包含寡核苷酸夹等结构，其与衔接头寡核苷酸形成三链体，例如Gryaznov et al，美国专利5,473,060。在另一个实施方案中，表面(1622)可以具有反应官能团，所述反应官能团与多联体上的互补官能团反应以形成共价键，例如通过与用于将cDNA附接到微阵列的技术相同的技术，例如Smirnov et al(2004)，Genes，Chromosomes&Cancer，40：72-77；Beaucage(2001)，Current Medicinal Chemistry，8：1213-1244，这里将通过提述将它们并入。还可以高效地将长DNA分子，例如几百个核苷酸或更大的长DNA分子附接到疏水表面，例如具有低浓度的多种反应官能团(诸如-OH基团)的干净的玻璃表面。

在一个实施方案中，全基因组测序使用包含被分析多核苷酸片段的50至200x基因组覆盖度的阵列。例如，60亿个平均片段长度为100个碱基的DNB将含有代表100x基因组覆盖度的6000亿个碱基。在一个实施方案中，阵列包含60亿个由300-600个碱基的长DNA片段构成的DNB。可以将DNB以结合到间距为一微米的正方形组合件(square pack)布局的阵列基片上，并且可以将阵列基片分成16个区段。在进一步的实施方案中，每个区段含有24个单位亚阵列，每个单位亚阵列在2x2mm²的面积上含有1600万个结合的DNB。

使用8个区段和DNB的250个碱基长度的测序测定法可能需要350个探针库用于测序。可以在片段长度、DNB数、库设置和重叠之间做各种不同的权衡(tradeoff)以获得最优化的序列质量对成像时间(sequence qualityversus imaging time)。例如，分割成16区段的相同的随机阵列可能需要225个探针库用于测序。这将需要较少的探针库循环，从而减少成像时间。另外，DNB可以由长度为500个碱基的片段构成，需要使用在16个反应室中试验的16个区段针对350个探针库测定30亿个DNB。这种模式将产生带有256x基因组覆盖度的随机阵列，从而将单位阵列大小降低至2mm²。在一个实施方案中，使用6种荧光团中的两种组合标记每种探针库，产生最多21种可能的荧光标记组合。这种标记方案可以同时对许多探针进行测定，从而将杂交时间降低一个数量级。

可以将多种支持物用于本发明的阵列。一方面，支持物是具有表面的刚性固体，该表面优选是基本上平坦的，以使待询问的单分子们处于同一平面中。后一特征容许通过检测光学(detection optics)有效地收集信号。

在另一个方面中，本发明的固体支持物是无孔的，特别在通过需要小体积的杂交反应来分析单分子的随机阵列时。合适的固体支持物材料包括例如玻璃、聚丙烯酰胺涂层的玻璃、陶瓷、二氧化硅、硅、石英、各种塑料等材料。

在一个方面中，平面表面的面积范围可以是从0.5至4cm²。在一个方面中，固体支持物是玻璃或石英，例如具有均一地硅烷化的表面的显微镜载玻片。这可以使用常规方案来完成，例如在酸处理后，浸入80℃的3-缩水甘油氧基丙基三甲氧基硅烷(3-glycidoxypropyl trimethoxysilan)、N，N-二异丙基乙胺、无水二甲苯(8:1:24v/v)的溶液中，形成环氧硅烷化(epoxysilanized)表面，例如Beattie et a(1995)，Molecular Biotechnology，4：213。易于对这种表面加以处理以便于捕捉寡核苷酸的末端附接(end-attachment)，例如通过在施加到表面之前为捕捉寡核苷酸提供3’或5’三乙二醇磷酰基(triethylene glycol phosphoryl)间隔基团。可以使用许多其他的方案来添加反应官能团到玻璃或者其他的表面，如在Beaucage中公开的内容(上文引用)所证实的。

带有(一个或多个)散在衔接头的DNA靶标的阵列不限于单分子或多联体，并且可以包括原位扩增的DNA点的阵列或颗粒的阵列，这些点或颗粒各自包含多个拷贝的靶标核酸(例如在乳液PCR中使用的珠子)。此外，本文所描述的利用可以差别地去除(differentially removed)或以其他方式区别的多个锚或引物的方法，不限于散在衔接头，即它们可以用于带有两个“标准”【即末端连接(end-ligatd)的】衔接头，共具有4个锚位点的样品。

探针结构

术语“探针”以其广义使用，其具有直接杂交中使用的寡核苷酸的意义，或者如“两个探针的连接”中，或者如“带有锚的探针”中，或者如“带有锚探针的探针”中的意义。探针可以仅具有少许具体的碱基和许多简并碱基：例如BNNNNNNN或BBNNNNNN或NNBBNNNN。锚探针可以设计为如U5-10B1-4，以读取与锚序列U5-10的互补衔接头序列相邻的1-4个碱基。

可以以多种方式来标记本发明的寡核苷酸探针，包含直接或间接的附接放射性模块、荧光模块、比色模块、化学发光模块等。有关标记DNA和构建DNA衔接头的方法学的许多全面综述为构建本发明的寡核苷酸探针提供了可应用的指导。这些综述包括Kricka，Ann.Clin.Biochem.，39：114-129(2002)；Schaferling et al，Anal.Bioanal.Chem.，(April 12，2006)；Matthews et al，Anal.Biochem.，Vol 169，pgs.1-25(1988)；Haugland，Handbook of FluorescentProbes and Research Chemicals，Tenth Edition(Invitrogen/Molecular Probes，Inc.，Eugene，2006)；Keller and Manak，DNA Probes，2nd Edition(StocktonPress，New York，1993)；和Eckstein，editor，Oligonucleotides and Analogues：APractical Approach(IRL Press，Oxford，1991)；Wetmur，Critical Reviews inBiochemistry and Molecular Biology，26：227-259(1991)；Hermanson，Bioconjugate Techniques(Academic Press，New York，1996)等。下列的参考文献的样本公开了可应用于本发明的许多更详细的方法学：Fung et al，美国专利4,757,141；Hobbs，Jr.，et al美国专利5,151,507；Cruickshank，美国专利5,091,519；(用于附接报告基团的官能化寡核苷酸的合成)；Jablonski et al，Nucleic Acids Research，14：6115-6128(1986)(酶-寡核苷酸缀合物)；Ju et al，Nature Medicine，2：246-249(1996)；Bawendi et al，美国专利6,326,144(衍生化的荧光纳米晶体)；Bruchez et al，美国专利6,274,323(衍生化的荧光纳米晶体)等。

在一个方面中，将一种或多种荧光染料用作针对寡核苷酸探针的标记，例如由下列文献所公开，Menchen et al，美国专利5,188,934(4，7-二氯荧光素染料)；Begot et al，美国专利5,366,860(光谱上可分辨的罗丹明染料)；Leeet al，美国专利5,847,162(4，7-二氯罗丹明染料)；Khanna et al，美国专利4,318,846(醚取代的荧光素染料)；Lee et al，美国专利5,800,996(能量转移染料)；Lee et al，美国专利5,066,580(咕砘染料(xanthene dyes))：Mathies etal，美国专利5,688,648(能量转移染料)等。还可以用量子点进行标记，如在下列专利和专利申请中所公开，通过提述将它们并入：6,322,901；6,576,291；6,423,551；6,251,303；6,319,426；6,426,513；6,444,143；5,990,479；6,207,392；2002/0045045；2003/0017264等。如这里所使用的，术语“产生荧光信号的模块”指通过一种或多种分子的荧光吸收和/或发射性质来传递信息的信号传导手段(signaling means)。这些荧光性质包括荧光强度、荧光寿命、发射光谱特征、能量转移等。

易于掺入标记寡核苷酸的(readily incorporated into the lablingoligonucleotides)商业上可获得的荧光核苷酸类似物包括，例如Cy3-dCTP、Cy3-dUTP、Cy5-dCTP、Cy5-dUTP(Amersham Biosciences，Piscataway，NewJersey，USA)、荧光素-12-dUTP、四甲基罗丹明-6-dUTP、Texas

Cascade

FL-14-dUTP、

TR-14-dUTP、Rhodamine Green^TM-5-dUTP、Oregon 488-5-dUTP、Texas

630/650-14-dUTP、

650/665-14-dUTP、Alexa 488-5-dUTP、Alexa

532-5-dUTP、Alexa

568-5-dUTP、Alexa

594-5-dUTP、Alexa

546-14-dUTP、荧光素-12-UTP、四甲基罗丹明-6-UTP、Texas

Cascade

FL-14-UTP、

TMR-14-UTP、

TR-14-UTP、Rhodamine Green^TM-5-UTP、Alexa

488-5-UTP、Alexa

546-14-UTP(Molecular Probes，Inc.Eugene，OR，USA)。其他可用于合成后附接的荧光团包括但不限于Alexa

350、Alexa

532、Alexa

546、Alexa 568、Alexa

594、Alexa 647、BODIPY493/503、BODIPY FL、BODIPY R6G、BODIPY 530/550、BODIPY TMR、BODIPY 558/568、BODIPY 558/568、BODIPY 564/570、BODIPY 576/589、BODIPY 581/591、BODIPY 630/650、BODIPY 650/665、Cascade Blue、Cascade Yellow、丹磺酰(Dansyl)、丽丝胺罗丹明B(lissamine rhodamine B)、Marina Blue、Oregon Green 488、OregonGreen 514、Pacific Blue、罗丹明6G(rhodamine 6G)、罗丹明绿(rhodaminegreen)、罗丹明红(rhodamine red)、四甲基罗丹明、Texas Red(获自MolecularProbes，Inc.，Eugene，OR，USA)和Cy2、Cy3.5、Cy5.5和Cy7(AmershamBiosciences，Piscataway，NJ USA等)。还可以使用FRET串联荧光团，例如PerCP-Cy5.5、PE-Cy5、PE-Cy5.5、PE-Cy7、PE-Texas Red和APC-Cy7；还有PE-Alexa染料(610，647，680)和APC-Alexa染料。还可以将生物素或者它的衍生物用作检测寡核苷酸上的标记，随后被可检测标记的亲和素/链亲和素衍生物(例如藻红蛋白缀合的链亲和素)或者可检测标记的抗生物素抗体所结合。可以将地高辛配体掺入作为标记，随后由可检测标记的抗地高辛配体抗体(例如荧光素化的抗地高辛配体)对其结合。氨基烯丙基(aminoallyl)-dUTP残基可以掺入检测寡核苷酸，随后偶联到N-羟基琥珀酰亚胺(NHS)衍生化的荧光染料，例如上文列出的那些。一般而言，只要可检测标记的缀合物配偶体可以被结合以容许检测，可以将缀合物对(conjugate pair)的任一成员掺入检测寡核苷酸。如本文所使用的，术语“抗体”指任何类别的抗体分子，或它们的任何片段，例如Fab。用于检测寡核苷酸的其他合适的标记可以包括荧光素(FAM)、地高辛配基、二硝基苯酚(DNP)、丹磺酰、生物素、溴脱氧尿苷(BrdU)、六组氨酸(6xHis)、磷光体-氨基酸(phosphor-amino acids)(例如P-tyr、P-ser、P-thr)，或者其它任何合适的标记物。在一个实施方案中，将下列的半抗原/抗体对用于检测，其中每种所述的抗体用可检测的标记来衍生化：生物素/α-生物素、地高辛配基/α-地高辛配基、二硝基苯酚(DNP)/α-DNP、5-羧基荧光素(FAM)/α-FAM。如在下文的方案中所描述的，还可以将探针间接地标记，特别是用半抗原标记(然后该半抗原被捕捉剂所结合)，例如下列文献所公开的：Holtke et al，美国专利5,344,757；5,702,888；和5,354,657；Huber et al，美国专利5,198,537；Miyoshi，美国专利4,849,336；Misiura and Gait，PCT公布WO91/17160等。许多不同的半抗原-捕捉剂对可用于与本发明一起使用。示例性地，半抗原包括生物素、脱生物素(des-biotin)和其他衍生物、二硝基苯酚、丹磺酰、荧光素、CY5和其他染料、地高辛配基等。对于生物素，捕捉剂可以是亲和素、链亲和素或抗体。可以将抗体用作针对其他半抗原的捕捉剂(许多染料-抗体对是商业上可获得的，例如分子探针(MolecularProbes))。

在一个方面中，提供了优选地具有从约1至约3个碱基的探针库，容许针对在简并位置上的不同序列的一致而最优化的信号。在一个实施方案中，将具有经调整的浓度的3聚体构件的混合物用在探针合成中。

可以制备具有核酸标签尾巴的探针而非直接地标记探针。优选地是，尾巴不与受试DNA相互作用。这些尾巴可以从天然碱基或从仅在它们自身之间配对的修饰碱基(例如isoC和isoG)来制备。如果使用isoC和isoG核苷酸，那么可以分别地合成具有5’氨基接头的序列，所述5’氨基接头容许缀合到5’羧基修饰的接头，将所述5’羧基修饰的接头合成到每个带标签的探针上。这使得分别合成的标签序列能够在仍然附接在柱子上的同时与已知探针结合。在一个实施方案中，将21种带标签的序列与1024种已知的探针联用。

尾巴和探针之间可以相隔1-3个或更多个简并碱基、无碱基位点或其他接头。最小化尾巴和靶标DNA的相互作用的一个方法是使用在靶标DNA中非常少见的序列。例如，预期CGCGATATCGCGATAT或CGATCGATCGAT在哺乳动物基因组中是少见的。一个选择是使用带有与未标记的标签预杂交的尾巴的探针，所述未标记的标签在连接之后、与带标记的标签杂交之前，将被变性并且可能被洗去。可以利用尿嘧啶产生可降解的尾巴/标签，并且在运行新循环前去除它们，而不是利用温度去除。

一方面，使用探针的高重数多重连接(high-plex multiplex ligation)测定法，不用荧光染料标记所述探针，因此降低了背景和测定花费。例如，对于8种颜色，可以制备4x8＝32种不同的编码尾巴，并且可将32种探针作为一个库用在杂交/连接中。在解码过程中，使用四轮循环，每轮循环用8种标签。因此，每种颜色被用于4种标签，这4种标签被用于4轮解码循环中。在每轮循环后，可以去除标签或者将染料光漂白。该方法要求最后一个待解码探针集合必须在4轮解码循环中保持杂交状态。

在一个实施方案中，引入了额外的性质，例如Tm/稳定性、掺入尿嘧啶碱基和UDG酶所致的降解性、和化学或光化学可切割的键等，以提供使用同一种颜色来区分不同探针的能力。两种性质的组合，例如温度稳定性直接地或在切除或去除稳定剂后以提供针对相同颜色的8种不同标签；可以用一种以上的切割类型用于产生3组或更多组；为了实现这点，可能需要相同颜色的4-8或6-12次曝光(exposure)，要求低光漂白条件，例如可由增强型CCD(ICCD)检测的低强度的光照。例如，如果一种性质是解链温度(Tm)，并有4种具有不同Tm的带标签寡核苷酸或者锚或者引物，那么可以制备另一组4种寡核苷酸，其中最先的4种探针被连接于稳定剂或者可与稳定剂相互作用，所述稳定剂使这4种寡核苷酸的Tm改变到高于没有稳定剂的第一组中最稳定的寡核苷酸。在通过连续熔化(melting off)来融解来自第一组的4种寡核苷酸后，可以将温度降低到最初的低水平，然后可以将稳定剂切去或去除，并且使用与第一组相同的温度点来差异地熔解4种带标签的寡核苷酸或者锚或引物。

在一个方面中，通过连接于另一个未标记的寡核苷酸来稳定化探针-探针杂交体。

使用散在衔接头来测序的方法

在一个方面中，本发明包括确定靶标多核苷酸的核苷酸序列的方法，该方法包含下列步骤：(a)在靶标多核苷酸内生成多个散在衔接头，每个散在衔接头与靶标多核苷酸具有至少一个边界；并且(b)确定与至少两个散在衔接头的至少一个边界邻近的至少一个核苷酸的身份，由此确定靶标多核苷酸的核苷酸序列。如下文更充分地概述的，靶标序列包含欲获得序列信息的位置，本文通称为“检测位置”。一般而言，欲获得多个检测位置的序列信息(例如在特定检测位置上的核苷酸的鉴定结果)。这里使用的“多个”指至少两个。但是，在一些情况中，例如在单核苷酸多态性(SNP)检测中，可能仅期望获得任何特定靶标序列内的单个检测位置的信息。如本文所使用的，与检测位置的碱基在杂交体中形成碱基对的碱基称为“询问位置”(interrogation position)。

本发明的一个重要特征是在靶标多核苷酸扩增子中使用散在衔接头，以获取与靶标多核苷酸相关的序列信息。有多种测序方法学可以与散在衔接头一起使用，包括但不限于：基于杂交的方法，例如在下列文献中公开的方法：Drmanac，美国专利6,864,052；6,309,824；和6,401,267；和Drmanac et al，美国专利公布2005/0191656；和通过合成方法来测序，例如Nyren et al，美国专利6,210,891；Ronaghi，美国专利6,828,100；Ronaghi et al(1998)，Science，281：363-365；Balasubramanian，美国专利6,833,246；Quake，美国专利6,911,345；Li et al，Proc.Natl.Acad.Sci.，100：414-419(2003)；Smith et al，PCT公布WO 2006/074351；和基于连接的方法，例如Shendure et al(2005)，Science，309：1728-1739，Macevicz，美国专利6,306,597，通过提述将这些参考文献并入。

在一个方面中，依照本发明的确定靶标多核苷酸的核苷酸序列的方法包含下列步骤：(a)从靶标多核苷酸的产生多个靶标多联体，每个靶标多联体包含所述靶标多核苷酸的片段的多个拷贝，并且多个靶标多联体包括基本覆盖所述靶标多核苷酸的若干个片段；(b)形成靶标多联体的随机阵列，所述靶标多联体以这样的密度固定在表面上，使得至少大多数靶标多联体是光学上可分辨的；(c)鉴定在每个靶标多联体中每个片段的至少一部分的序列；并且(d)从多联体的片段的部分的序列的身份(identity)重新构建靶标多寡核苷酸的核苷酸序列。通常，“基本覆盖”指被分析的DNA的量含有至少两个拷贝的当量的靶标多核苷酸，或者在另一个方面中，至少十个拷贝；或者在另一方面中，至少二十个拷贝；或者在另一个方面中，至少100个拷贝当量的靶标多核苷酸。靶标多核苷酸可以包括DNA片段，包括基因组DNA片段和cDNA片段和RNA片段。关于重新构建靶标多核苷酸序列的步骤的指导可见于下列参考文献中，将它们通过提述并入：Lander et al，Genomics，2：231-239(1988)；Vingron et al，J.Mol.Biol.，235：1-12(1994)等。

在本发明的一个方面中，可以使用基于连接的测序方法，其例示可见图3A-3E。根据这样一些因素，例如期望的测序体积、使用的标记的类型、采用的靶标多核苷酸扩增子的类型和如何将它们附接到表面、测序操作期望的速度、信号检测方法等，本领域的普通技术人员可以选择这种测序方法的许多不同的变化形式。在图3A-3E显示的变化形式仅仅是示例性的。

在本发明的一个方面中，标记的探针仅在与配对探针(pairing probe)连接后才能够形成稳定的杂交体。相比于使用杂交方法的标准测序，探针连接的使用可改善数据的特异性。探针连接还可以应用于位置特异性碱基鉴定(例如DNA末端)或者在全序列扫描方法学(例如所有内部重叠序列)中。

为了鉴定在未知序列中的特定位点上(例如在序列的末端上)的序列，可以设计标记的探针以容许其连接锚探针。将较长的锚探针杂交到与待确定的未知序列(例如检测位置)的末端邻近的已知衔接头序列上。标记的探针可以具有不同数量的特定碱基和简并碱基。例如，可以用探针BBNNNNNN来确定2个末端碱基(A＝锚，D＝衔接头，G＝基因组，B＝定义探针的碱基(probe defining bases)，N＝简并碱基。*＝标记)：

AAAAAAAAA.BBNNNNNN*

DDDDDDDDDDDDDDGGGGGGGGGGGGGGGG

对于这种探针结构，有16种序列读取探针(sequence-reading probes)，每种探针由在5’末端处的2个特定碱基组成。如果试验所有16种探针，那么在去除不被连接到锚探针的探针后，仅一种将高效地连接到锚钩探针并给出强烈的信号。这种正探针(positive probe)检测在基因组DNA片段的末端处的两个碱基，而且具有高度的特异性，所述高度特异性是由T4 DNA连接酶对靠近连接位点的互补碱基的强烈偏好性所提供的。

在本发明的一个方面中，提供了含有多个散在衔接头的单链靶标多核苷酸。在图3A中，显示了三个散在衔接头(3002，3004和3006)，它们可以是包含靶标多核苷酸多个拷贝的扩增子(诸如多联体)的一部分(3000)。每个散在衔接头在每个末端上具有这样的区域(例如3008和3012)，所述区域具有被设计为相应的锚探针的结合位点的独特序列(在这个实例中，在三种散在衔接头中总共有6个这种独特的序列)，所述锚探针一种寡核苷酸(它可以带有标记或可以不带标记)，测序探针连接到其上。这些末端区域的长度范围可从6至14个寡核苷酸，并且更通常地是从8至12个寡核苷酸。散在衔接头任选地具有中心区域(3010)，其可以含有额外的元件，例如不同酶的识别位点(当处于双链形式时)或者用于将靶标多核苷酸扩增子固定化在表面上的捕捉寡核苷酸结合位点等。在一个方面中，使用散在衔接头(3002-3006)的测序操作包含将锚探针杂交到每个不同的独特的锚探针结合位点的六个连续程序。每个这种程序包含下列循环：将锚探针杂交到它的散在衔接头的末端位点，在仅允许完全匹配的探针杂交的条件下与测序探针混合，将完全匹配的测序探针与并列的(juxtaposed)锚探针相连接，检测连接的测序探针，通过测序探针产生的信号来鉴定与锚探针邻近的一个或多个碱基，和从靶标多核苷酸扩增子除去测序探针以及锚探针。

进一步的实施方案包括产生长度为300-3000个碱基的DNA环并在起始衔接头的每一边(on each side ofthe initial adaptor)插入2-3个衔接头。以这种方式，产生了由300-3000个碱基分开的20-60个碱基的两个长序列的匹配对(mating pair)。除了提供两倍水平的序列数据外，这种方法提供了有价值的定位信息。在从头(de novo)序列组装中，配对可以跨越(bridge over)重复序列，并且还可以将其用于在基因组再测序中准确地定位比20-50个碱基长的重复序列中的突变。可以用探针杂交或者探针-探针连接数据来补充一个约20-50个碱基的序列或者两个约20-50个碱基的序列的配对。可以对包含全部五聚体、六聚体、七聚体或八聚体的1/8至1/16的部分集合评分以提供用于200-4000个碱基长度的片段的定位信息。另外，可以在4-16个反应室中对给定长度的所有探针(例如所有六聚体)评分，所述4-16个反应室含有针对给定的基因组的总DNA阵列的4-16个部分。在每个室中，可以对所有探针的1/4至1/16评分。对单独的DNA片段定位后，可以将所有的探针汇编(compile)以提供每个碱基在重叠片段的重叠探针中的100至1000个读取。

在一个实施方案中，将六个连续的程序重复1至4次，优选2至3次，使得与衔接头相距不同距离的核苷酸可以得到鉴定。在另一个实施方案中，将六个连续程序进行一次，但将锚探针杂交、测序探针杂交、连接等的每轮循环重复1至4次，或2至3次。在图3A中阐明了前者，因此在锚探针(3015)杂交到其在散在衔接头(3002)中的结合位点后，在这样的条件下将标记的测序探针(3016)添加到反应混合物中：在所述条件下，如果形成完全匹配的双链体，那么在容许与锚探针(3015)连接。

测序探针可以具有多种不同的结构。代表性地，它们含有简并序列并且被直接地或间接地标记。在图3A中的实例中，用例如产生相互可区别的信号的荧光染料F1、F2、F3和F4和也产生相互可区别的信号的荧光染料G1、G2、G3和G4来直接地标记测序探针。在这个实例中，因为每个组(即F和G)中的染料是在不同的循环中检测的，因此它们可以是相同的染料。在采用八聚体测序探针时，用于鉴定与散在衔接头紧邻的碱基的F标记的探针组可以具有下列结构：3’-F1-NNNNNNNAp，3’F2-NNNNNNNCp，3’-F3-NNNNNNNGp，3’-F4-NNNNNNNT。这里假设，序列(3000)从左到右是处于5’→3’方向；因此，只要使用常规的连接酶介导的连接，F标记的探针必须在它们的5’末端上携带磷酸基团。同样地，G标记的探针的相应组可以具有下列结构：3’-ANNNNNNN-G1，3’-CNNNNNNN-G2，3’-GNNNNNNN-G3，3’-TNNNNNNN-G4，并且对于这些探针的连接，它们相关的锚探针必须具有5’-磷酸基团。在连续循环中的F标记的探针可以具有下列结构：3’-F1-NNNNNNANp，3’-F2-NNNNNNCNp，3’-F3-NNNNNNGNp，3’-F4-NNNNNNTN，和3’-F1-NNNNNANNp，3’-F2-NNNNNCNNp，3’-F3-NNNNNGNNp，3’-F4-NNNNNTNN等。

回到图3A，在鉴定连接的探针(3018)后，将它从靶标多核苷酸扩增子(3020)上去除，并且将下一个锚探针(3022)杂交到其各自的结合位点。将G标记的测序探针杂交到靶标多核苷酸，使得那些形成与锚探针并列的完全匹配的双链体(forming perfectly matched duplexes juxtaposed to theanchor probes)的测序探针得以被连接和鉴定。持续针对每个锚探针结合位点进行该过程，直至最后一个连接的探针(3028)被鉴定。然后使用F标记的测序探针和G标记的测序探针来重复(3030)循环的全序列，其中所述F标记的测序探针和G标记的测序探针被设计以鉴定与其各自的锚探针邻近的一个不同的碱基。

图3B阐明了图3A方法的一种变形，其中一次两个地将锚探针杂交到它们各自的结合位点。可以采用任何锚探针对，只要该对的一个成员结合到散在衔接头的3’结合位点并且该对的另一个成员结合到散在衔接头的5’结合位点。对于直接标记的测序探针，如所示，这种实施方案需要使用八种可区分的标记；即，标记F1-F4和G1-G4中的每种标记必须是相互可区分的。在图3B中，将锚探针(3100和3102)杂交到它们在散在衔接头(3002)中各自的结合位点，之后，在严紧杂交条件下添加一组测序探针(3104)。对形成完全匹配的双链体的探针进行连接，洗去未连接的探针，之后，鉴定连接的探针。使用设计用于鉴定与散在衔接头(3002)邻近的不同位点上的碱基的多组测序探针来重复(3110)这种杂交、连接和洗涤的循环。然后针对每个散在衔接头重复该过程。

图3C阐明了图3A的实施方案的另一个变形，其中在使用针对任何其他散在衔接头的锚探针前，将用于鉴定在与锚探针邻近的每个位点上的碱基的测序探针进行至完成。简而言之，对于每个锚探针结合位点进行每个虚线框(3200)内的步骤，一次一个；这样，每个虚线框对应不同的锚探针结合位点。在每个框内，进行连续的循环，循环包含下列步骤：杂交锚探针、连接测序探针、鉴定连接的测序探针。

图3D阐明了采用被编码的标记的实施方案，所述被编码的标记与那些和由Albrecht等，美国专利6,013,445公开(本文将其并入作为参考)的被编码的衔接头一起使用的标记相似。该方法与在图3C中描述的方法相似，只是这些探针是用寡核苷酸标签间接地标记的，而不是直接标记的测序探针。通过使用这些标签，可以降低连接步骤的数量，因为每种测序探针混合物可以含有鉴定比四个碱基多得多的序列。例如，可以选择非交叉杂交性(non-cross-hybridizing)的寡核苷酸标签，它们对应于16对碱基中的每一对，因此在连接后，可以用多组标记的反标签(anti-tags)来询问连接的测序探针，直至每个两碱基序列均被鉴定。这样，使用被编码的测序探针，可以一次两个地、或一次三个地、或一次更多个地鉴定与锚探针邻近的靶标多核苷酸的序列。到图3D，将锚钩探针(352)杂交到锚结合位点(381)，之后，在仅允许完全互补的测序探针(354)连接到锚探针(352)的条件下添加被编码的测序探针。在这种连接和洗去未连接的测序探针后，在严紧条件下将标记的反标签(358)连续地杂交到测序探针的寡核苷酸标签，使得仅有形成完全匹配的双链体的标记的反标签被检测到。可以将多种不同的标记方案与反标签一起使用。可以对所有的反标签使用单一标记，并且可以将每个反标签分别地杂交到被编码的测序标签。或者，可以采用多个抗标签组以降低必须进行的杂交和洗涤的数量。例如，若每种测序探针鉴定两个碱基，则可以应用两组抗标签，每组四种抗标签，其中给定组中的每个探针按照测序探针鉴定的两个碱基之一的身份而携带不同的标记。同样地，如果测序探针鉴定了三个碱基，那么可以将每组含四种抗标签的三个组用于解码。可以针对每种散在衔接头进行这些解码循环，之后，可以使用鉴定在不同位点上的碱基的测序探针来进行额外的循环。

图3E阐明了一个与在图3B中描述的实施方案相似的实施方案，只是这里采用了被编码的测序探针。因此，每次将两个锚探针地杂交到靶标多核苷酸上，并且通过用标记的抗标签解码而鉴定相应的测序探针。如图所示，将锚探针(316和318)杂交到它们各自在散在衔接头(3002)上的结合位点，之后，在这样的条件下加入两组被编码的测序探针(327)，所述条件仅允许形成完全匹配的双链体的探针被连接。在去除未连接的探针后，用标记的抗标签来解码连接的探针的寡核苷酸标签。如上文，有多种方案可用于解码连接的测序探针。

在另一方面中，本发明所用的一种在多个DNA或RNA片段中确定序列的测序方法包含下列步骤：(a)产生多个多核苷酸分子，每个包含DNA或RNA片段的多联体；(b)形成多核苷酸分子的随机阵列，所述多核苷酸分子以这样的序列固定在表面上，使得至少大部分靶标多联体是光学上可分辨的；并且(c)使用光学上可检测的反应物的至少一种化学反应来鉴定每个DNA或RNA片段的至少一部分的序列。在一个实施方案中，这种光学上可检测的反应物是寡核苷酸。在另一个实施方案中，这种光学上可检测的反应物是核苷三磷酸，例如可以用于延伸杂交到多联体上的寡核苷酸的荧光标记的核苷三磷酸。在另一个实施方案中，这种光学上可检测的反应物是通过连接第一和第二寡核苷酸而在多联体上形成邻近的双链体从而形成的寡核苷酸。在另一个实施方案中，这种化学反应是DNA或RNA的合成，例如通过延伸杂交到多联体上的引物。

在一个方面中，在随机阵列上的靶标多核苷酸的多联体的平行测序通过组合SBH(cSBH)来完成，如由在上文中引用的Drmanac的专利所公开的。在一个方面中，提供了第一组和第二组寡核苷酸探针，其中每组具有这样的成员探针，所述成员探针包含具有在该组中确定长度的探针的每种可能序列的寡核苷酸(oligonucleotides having every possible sequence for thedefined length ofprobes in the set)。例如，如果组含有长度为6的探针，那么它含有4096(＝4⁶)种探针。在另一方面中，第一组和第二组寡核苷酸探针包含具有经选择的核苷酸序列的探针，所述经选择的核苷酸序列被设计用于检测经选择的靶标多核苷酸集合。通过以下方式来确定序列：杂交一种探针或探针库、杂交第二探针或第二探针库、连接在它们的靶标序列上形成完全匹配的双链体的探针、鉴定那些被连接的探针以获得关于靶标序列的序列信息、重复这些步骤，直至已将所有的探针或探针库杂交，并且从在杂交和鉴定步骤中积累的序列信息确定靶标的核苷酸序列。

对于测序操作，在一些实施方式中，可以将组分成在库中一起使用的亚组(subsets that are used together in pools)，如在美国专利6,864,052中所公开的。可以将来自第一组和第二组的探针作为整个组、或作为亚组，或作为库一起地或顺次地杂交到靶标序列。在一个方面中，在第一组或第二组中的探针长度范围为从5至10个核苷酸，在另一个方面中，为从5至7个核苷酸，使得它们在被连接时，形成长度范围分别为从10至20和从10至14的连接产物。

另一个方面，使用这些技术，可以通过“签名”法来确定每个附接的DNA多联体的序列身份。使用约50至100个或者可能200个探针，因此约25-50％(或者，在一些应用中，10-30％)的附接的多联体将对每种探针都具有完全匹配的序列。这种类型的数据使得多联体内的每种扩增的DNA片段能够定位到参考序列。例如，通过这种方法，可以依照4种颜色标记方案使用16轮杂交/脱去(stripoff)循环来对64种四聚体(即所有可能的256种四聚体的25％)评分。在多联体中扩增的60-70个碱基的片段上，64种探针中的约16种探针将为阳性，因为在64个碱基长的序列中存在64种可能的四聚体(即所有可能的四聚体的四分之一)。不相关的60-70个碱基的片段将具有非常不同的一组约16种阳性解码探针。从64种探针中取16种探针的组合发生的随机机会为每十亿个片段之一，这实际上为该多联体提供了独特的签名。对在20轮循环中的80种探针评分并产生20种正探针，这产生更可能是独特的签字：发生概率是一百亿亿分之一(1 in billionbillions)。先前，“签名”法被用于从cDNA文库选择新基因。签名法的一种实施方式是对所有从被试验的探针获得的强度进行排序，并且选出达到预先确定(期望)的数量的满足阳性探针阈值的探针。这些探针将被定位到期望存在于阵列中的所有DNA片段(可以使用更长的参考序列的滑窗)的序列上。将具有所有的选定正探针的序列，或者具有统计学上足够数量的选定正探针的序列，指定为给定多联体中的DNA片段的序列。在另一种方法中，可以为所有使用的探针定义期望的信号：使用它们预先测量的完全匹配和错配的杂交/连接效率来定义。在这种情况中，可以计算类似于关联因子的量度(a measure similar to the correlation factor)。

对四聚体评分的优选方式是连接探针对，例如：连接N_(5-7)BBB和BN_(7-9)，其中B是确定的碱基而N是简并碱基。为了在更长的DNA多联体探针上产生签名，将使用更独特的碱基。例如，用N_(4-6)BBBB和BBN_(6-8)可在长度为1000个碱基的片段中实现25％的阳性率。应注意的是，较长的片段需要相同数量的约60-80种探针(使用4种颜色，15-20轮连接循环)。

在一个实施方案中，可以将所有给定长度的探针(例如4096个N_2-4BBBBBBN_2-4)或者所有连接对(ligation pairs)用于确定多联体中的DNA全序列。例如，可以对N_(5-7)B₃和BBN_(6-8)的1024种组合评分(如果使用4种颜色需256个循环)以确定具有最多约250个碱基，优选具有最多约100个碱基的DNA片段的序列。

可以通过对简并碱基处序列的多个亚组的多重合成来准备带有大量N的测序探针的解码(The decoding of sequencing probes with large numbers of Ns may be prepared from multiple syntheses of subsets of sequencesat degenerated bases)，以最小化效率的差异。以适当的浓度将每个亚组添加到混合物中。一些亚组还可以具有比其它亚组更多的简并位置。例如，可以在4种不同合成中制备来自集合N_(5-7)BBB的64种探针中的每一种。一种是常规的，所有5-7个碱基完全简并；第二种是N0-3(A，T)5BBB；第三种是N0-2(A，T)(G，C)(A，T)(G，C)(A，T)BBB，第四种是N0-2(G，C)(A，T)(G，C)(A，T)(G，C)BBB。

以经实验确定的量将来自所述三种特定合成的寡核苷酸制备物添加进常规合成中以增加与如下所述的靶标序列的杂交体的生成。其中，靶标序列具有位于BBB序列之前的、富含AT的序列(例如AATAT)或(A或T)和(G或C)交替的序列(ACAGT或GAGAC)。估计这些序列形成杂合体的效率是较低的。可以测试所有1024种靶标序列与N_0-3NNNNNBBB探针形成杂交体的效率，并且将那些给出最弱结合的类型在约1-10个额外的合成中加以制备，并添加到基本探针制备物中。

在另一个实施方案中，将较小数量的探针用于小数量的不同样品；例如，20种探针中的5-7种阳性探针(使用4种颜色需5个循环)具有分辨约1万-1百万个不同片段的能力。

在一个方面中，通过提供这样的阵列来解码8-20-mer RCR产物，所述阵列是作为呈DNA多联体形式的、8至20个碱基的独特识别序列(unique8 to 20 base recognition sequences in the form of DNA)的随机分布而形成的。使用许多可能的方法来解码探针以确定所述8-20个碱基的探针区域的序列。在一个示例性的方法中，通过利用短探针的杂交特异性和完全匹配的杂交体的连接特异性来确定一半的序列。与12mer邻近的6至10个碱基被预先确定，并发挥6mer至10mer寡核苷酸的支持物的作用。这种短6mer将在其3’末端的连接于4种标记的6mer至10mer中的一种。这些解码探针由4种寡核苷酸的库构成，其中每种寡核苷酸由4-9个简并碱基和1个确定的碱基构成。还将用四种荧光标记中的一种来标记这种寡核苷酸。因此四种可能的碱基A、C、G或T将由荧光染料来代表。例如，可以将这5个4种寡核苷酸的组和一种通用寡核苷酸(U)用在连接测定法中以对12-mer的最初5个碱基测序：B＝末端上结合了特定染料或标签的4种碱基中的每种碱基：

UUUUUUUU.BNNNNNNN*

UUUUUUUU.NBNNNNNN

UUUUUUUU.NNBNNNNN

UUUUUUUU.NNNBNNNN

UUUUUUUU.NNNNBNNN

可以用额外的探针库来对六个或更多个碱基测序。为了改善靠近12-mer中央的位置处的区分力，可以使6-mer寡核苷酸的位置更靠近12-mer序列内部(be positioned further into the 12-mer sequence)。这将需要将简并碱基掺入未标记的寡核苷酸的3’末端来为移位提供余地(accommodate theshift)。这是12mer中的第6位和第7位的解码探针的实例。

UUUUUUNN.NNNBNNNN

UUUUUUNN.NNNNBNNN

以相似的方法，可以通过使用固定的寡核苷酸和5’标记的探针来解码来自12-mer右侧的6个碱基(6 bases from the right side of the 12-mer)。在上述的系统中，需要6轮循环以确定12-mer一侧的6个碱基(6based of oneside of the 12-mer)。由于对远离连接位点的碱基的冗余(redundant)循环分析，循环可能增加至7或8轮。因此，12mer的全测序可以用12-16轮连接循环来完成。

在一个实施方案中，本发明提供了通过联合两种不同类型的检测器探针(detector probe)文库来排成阵列的DNA进行部分测序或全测序的方法。在这种方法中，一个组具有普通类型的N_3-8B_4-6的探针(锚)，它们与来自组BN_6-8、NBN_5-7、N₂BN_4-6和N₃BN_3-5的最初2个或3个或4个探针/探针库连接。在一个示例性的方法中，将1-4个或更多4mer(1-4 4-mers or more)杂交到5mer锚，以使约70％-80％的分子每个DNA获得1个或2个锚。在一个实施方案中，可通过混合具有不同杂交体稳定性(此外还可能有不同数量的的N)的特异性探针来确定阳性锚(positive anchor)。还可以给锚加上标签以确定来自库的哪个锚杂交到点上。标签，作为额外的DNA区段，可以用于可调整的取代(adjustable displacement)，来作为一种检测方法。例如，在杂交或杂交和连接后，可以用两个相应的取代物EEEEEEEENNNNN和FFFFFFFFNNNNNNNN来有差别地去除EEEEEEEENNNAAAAA和FFFFFFFFNNNCCCCC探针，其中第二个取代物更有效。在另一个实施方案中，可以用不同的循环确定哪个探针为阳性。为了这个目的，可以将用带有多种颜色的标记或标签的锚连接到未标记的N7-N10支持物寡核苷酸。

然后将BNNNNNNNN探针与对应于4种碱基的4种颜色杂交。如果在一个DNA中有两种锚是阳性的，则通过区别性的清洗或者标签互补体的取代来读取两个被评分的碱基中哪一个是与锚联系的。因此，可以同时对两种7-10个碱基的序列评分。可以用2-4个循环延伸至2-4个碱基的锚，在为另外的2-4个碱基延伸至4-6个碱基的锚的2-4个循环中，每个阵列运行16种不同的锚(32-64个物理循环，如果使用4种颜色的话)以测定每个片段大约16种可能的8-mer(总共大约100个碱基)。足以将其定位至参比序列(100-mer具有一套10种8-mer的概率小于10²⁴分之一。通过组合在另一个阵列中在同一片段上平行评分的不同锚的数据，可以自重叠的7-10-mer产生该片段的完整序列，并延伸至整个基因组。

在一个方面中，本发明提供了用DNA标签给探针加标签的方法，其用于较大的多重解码或序列确定探针。可以用由天然碱基或新合成碱基(例如isoG和isoC)产生的不同寡核苷酸序列替代直接标记来给探针加标签。可以利用不同的寡核苷酸长度(约6-24个碱基)和/或序列(包括GC含量)来将标签设计为与它们的抗标签具有非常精确的结合效率。例如，可以设计4种不同的标签，它们可以在4轮连续循环中或在一轮杂交循环然后区别性清洗中用特异性抗标签来识别。在区别性清洗中，每个标签的初始信号分别被降低至95-99％、30-40％、10-20％和0-5％。在这种情况中，假定带有不同标签的探针将很少地杂交到相同的点上，通过获得两个图像，获得4个测量结果。具有许多不同标签的另一个益处——即使它们被连续地解码(或者一次2-16个，用2-16种不同颜色来标记)——是能够在一个测定反应中使用大量的单独而可识别的探针。这样，如果探针在短暂温育和去除反应中被解码，长4-64倍的测定时间(其可以提供更特异或强烈的信号)可能是可承受的。

解码方法需要48-96或更多种解码探针的使用。通过用四种各自具有不同发射光谱的荧光团来编码这些探针，它们将被进一步地合并成12-24或更多种库。使用20x物镜，每个6mm x 6mm阵列可能需要使用10兆像素相机拍摄的大概30张图片为了完全盖度。通过约8个像素来读取每1微米的阵列区域。每张图像可以以250毫秒的时间获得：150毫秒用于曝光，100毫米用于移动镜台。使用这种快速获取，为每个阵列拍摄图像将花费约7.5秒，或者为每个基片上的全套96个阵列拍摄图像将花费12分钟。

在成像系统的一个实施方案中，通过使用四个10兆像素的相机，每个相机成像不同荧光团的发射光谱，从而达到高图像采集速率。通过一系列二色分光镜将相机偶联到显微镜上。仅在采集的图像焦点未对准时才运行自动聚焦程序，因为它要花费额外的时间。然后它将存储Z轴位置信息，供下一个成像循环期间回到该阵列的该部分时使用。通过为基片上每个位点确定自动聚焦位置，我们将显著地降低图像采集所需的时间。

代表性地，每个阵列的解码需要约12-24轮循环。每个循环由杂交、清洗、阵列成像和剥离步骤组成。这些步骤，按它们各自的顺序，就上面的实例而言可能分别花费5分钟、2分钟、12分钟和5分钟，对每个循环而言总共24分钟，或者每个阵列而言花费大概5-10小时，如果操作是线性地进行的话。可以通过使该系统不断地成像来将解码每个阵列的时间降低一半。为此，将每个显微镜上的两个分开的基片的成像错开，即当一个基片正进行反应时，对另一个基片成像。

使用cSBH的示例性的解码循环包括下列步骤：(i)将阵列的温度设置到杂交温度(通常在5-25℃范围)；(ii)使用自动移液器将少量解码探针与合适量的杂交缓冲液预混合；(iii)将混合后的试剂移液进杂交小室；(iv)杂交预先确定的时间；(v)使用泵(注射器等)将试剂从小室中吸干；(vi)添加缓冲液以洗去非杂交体的错配物；(vii)将小室的温度调整至合适的清洗温度(约10-40℃)；(viii)吸干小室；(ix)如果需要改进成像，添加更多的清洗缓冲液；(x)对每个阵列成像，优选用与一台或多台高像素数高灵敏度CCD相机偶联的中等倍数(20x)的显微镜物镜；平板载物台将小室(或可能是带有输入漏斗的流动池)在物镜上方移动，或者物镜-光学组件在小室下方移动；某些光学配置，使用双色镜/束分光镜(dichroicmirrors/beam-splitter)，可以用于同时收集多光谱图像，从而降低图像采集时间；根据阵列/图像大小/像素密度，可以对阵列分部分成像或整体成像；可以通过使用预编码到基片上(在活性位点产生期间)的统计上显著的空区域来对齐图像从而组装部分，或可以使用多步骤纳米印刷技术来产生部分，例如可以使用特异性捕捉探针来印刷位点(活化位点的网格)，在网格中留下空区域；然后使用另外的印刷头来在那个区域中印刷不同的图案或捕捉探针；(xi)吸干室并更换为探针剥离缓冲液(或者使用已载入的缓冲液)，然后将小室加热至探针剥离温度(60-90℃)；可以在剥离步骤使用高pH缓冲液以降低剥离温度；等待指定的时间；(xii)去除缓冲液；(xiii)用组中的下一个解码探针库开始下一轮循环。

用于杂交测序的组合探针连接

在本发明的一个优选的方面中，通过使用组合探针连接的杂交测序方法来获得关于靶标多核苷酸的序列的信息。在本发明的这个方面中，在DNA连接酶的存在下(R.Drmanac，美国专利6,401,267，2002)将两组完整、通用的短探针暴露于靶标DNA。代表性地，一组探针附接到固相支持物，例如载玻片，而用荧光团标记的另一组探针处于溶液中，是可移动的。当附接的带有标记的探针们杂交到靶标上精确邻近的位置时，将它们连接，产生长的、带标记的、且共价地连接到载玻片表面的探针。在给定位置上的阳性信号显示靶标内存在这样的序列，其与联合产生所述信号的两种探针互补。

在优选的实施方案中，将通用测序芯片，例如由Complete Genomics开发的HyChip^TM载玻片，用于本发明的组合杂交测序中。在一个实施方案中，每个HyChip^TM包含显微镜载玻片，所述载玻片含有附接的6-mer的8个复制阵列，从而可以每个样品使用一整组超过四百万个11-mer探针，使用4096种排列的6-mer和1024种标记的5-mer探针来分析。在优选的实施方案中，将使用HyChip^TM系统的测序方法用于分别而不关联的DNA片段的序列混合物。

可以通过PCR来制备与本发明的测序方法一起使用的DNA样品。

在一个优选的方面中，本发明提供了数以百万计的单独的多核苷酸分子的阵列，将所述多核苷酸分子以约每平方微米一个点的密度随机地布置在光学上透明的表面上。这些多核苷酸分子起模板的作用，用于荧光标签探针库的杂交和连接。在一个实施方案中，将探针库和DNA连接酶混合并提供给随机阵列。在探针杂交到在靶标片段上的邻近位点时，它们被连接在一起，形成稳定的杂交体。可以利用带有先进的光学器件的灵敏的百万像素CCD相机同时地检测在全阵列上数以百万计的这些单独的杂交/连接事件。一旦检测到来自第一库对(pool pair)的信号，就将探针去除并用连续的连接循环来试验不同的探针组合。在本方面优选的方面中，3.2x3.2mm阵列将具有容纳1千万个片段或者约10-100亿个DNA碱基的能力。

使用带标记的标签的组合标记

在一个方面中，通过使用16种荧光染料，可以用单个杂交/连接循环试验所有16种可能的探针。还可以使用从更少的荧光染料生成荧光签名的方法学来完成这种试验。在荧光原位杂交(FISH)染色体“着色”(painting)中，可以使用荧光探针的组合以产生用于该探针组合的新荧光签名。例如，来自4种一组的两种探针的组合可以产生10种可能的签名荧光信号，5种可产生15种，6种可生成21种，等等。因此，在单个杂交循环中，将可能区分16种探针中的哪一种被杂交到锚探针上。

或者，如果BBNNNNNN探针中有一个未被标记(根据缺乏针对所有其他探针的信号来推断)，5种颜色将足够标记所有残余的15种二核苷酸。可以将4种颜色用于标记读取单碱基的4种探针，或者读取两碱基的8种探针(来自所需的全部16种探针中)。在后一种情况中，可以将所有16种探针在两轮循环中评分(参见下文)。因此，5或6种颜色的系统可能比非组合标记所需的16种颜色更容易实现。

为了高效地进行组合标志，可以制备带有标签结合位点的尾序列的2-mer探针。可以组合地设计尾序列用于结合五种(或六种)之中两种标记的寡核苷酸标签，或者可以为16种尾巴中的每一种合成带有一种或两种荧光染料的16种标签。使用标记的标签替代直接标记的探针具有额外的优势。试验所有16种BBNNNNNN探针将需要比针对单个探针多1024倍的探针(假设在更远离连接位点的位置上区分度低)。例如，为了在BBNNNNNN的探针混合物内具有1μM浓度的探针AGCTANNN，混合物需为1024μM。因为合成标记的探针比合成未标记的探针花费更高，可以通过尾序列来检测未标记的探针，同时使用低浓度的标记的标签探针，因为它可以与尾序列完全互补。另外，使用未标记的加尾的探针将有益于维持更低的背景，因为荧光团将处于低浓度。通过使用6种标记的标签(不带有简并碱基)替代与之相当的1024种标记的探针，费用有望整体降低至1/100。

标签还提供了一个仅使用4种颜色单个连接反应中读取全部16个二核苷酸的有效选项。在这种实施方案中，可以设计两个含4种不同标签的组用于分别解码8个2-mer。所有16个2-mer可以在两轮解码循环中被解码。可以将这种策略扩展至使用相同的4种颜色读取衔接头的每个末端上的2个碱基。在这种情况中，可以将4个含4种标签的组用在读取4个碱基的每轮连接循环的4个解码步骤中。进行多轮解码循环代替多轮连接循环是更便宜的(使用的酶更少)，而且连接循环可延续更长的时间，使用更低的探针浓度，以减少错配的连接。

还可以设计标签以最小化对被分析的DNA的干扰，例如通过使用不与天然碱基配对的isoC和isoG碱基对。另一个选择是使用标准的DNA化学法，但设计在人类基因组中非常稀有的序列。再另一个选择是使用带有用未标记的标签预杂交的尾的探针，所述未标记的标签将在连接之后与标记的标签杂交之前被去除。

扩大可被解码的碱基的数量

为了自锚探针读取多于2个核苷酸(read further than 2 nucleotides fromthe anchor)，在本发明的一些方面中，可以利用额外轮次的探针-锚连接，而且在下一轮循环起始前从靶标去除锚/标记探针。可以使用许多本领域已知的方法，例如通过加热或通过在锚探针中的温度可切割或光可切割的键来去除连接的探针-锚，使得锚在加热步骤中断裂并且去稳定。因为现在被测序碱基是自衔接头的3和4个碱基(3 and 4 bases from the adaptor)，因此需要对锚探针或标记探针进行修饰。在锚探针的情况中，在本发明的一个实施方案中可以将锚探针制备为在连接末端上具有2个额外的简并碱基。为了确保维持后继连接的效率，在一个实施方案中，通过连接模板DNA上的两个较短寡核苷酸来构建锚。或者，可以将测序探针制备为在连接末端上具有两个简并碱基，以这样的形式：NNBBNNNN-标签。在本发明的另一方面中，可以将测定法设计为使用16种锚探针以读取额外的2个碱基。

因为仅试验连接位点两旁的2-4个碱基，因此探针-锚连接的特异性非常高。这些碱基的平均区分度是50-100倍。一些错配(例如GT)要强烈得多，其具有仅5-20倍的区分度。在本发明的一个实施方案中，提供了可将在某些错配的区分度的差异考虑在内的软件。

在本发明一方面中，使每种探针、锚和标签最优化(例如，通过浓度、简并碱基的数量、标签的序列和长度)以最大程度地使完全匹配信号相等(equalize)。在本发明的一个实施方案中，可以设计探针和锚的重叠和移位的对，以读取每个碱基2-3次从而增加碱基判定精确性(calling accuracy)。

在精确的短距离上插入带有锚区域的额外内在衔接头扩大了在基因组片段中确定位置上的碱基的测序能力。例如，在原有的衔接头的基础上加两个衔接头，可以通过从5个连续衔接头末端读取4个碱基来在10轮循环中确定20个连续碱基。

起始衔接头最初8个碱基衔接头2 2^nd8碱基衔接头3 额外的约200bases

DDDDDDDDDDGGGGGGGGDDDDDDDDDDGGGGGGGGDDDDDDDDDDGGGGGGGGGGG

AAAAAAA.BBNNNNNN-尾AAAAAAA.BBNNNNNN-尾AAAAAAA.BBNNNNNN-尾

AAAAAAA.NNBBNNNN-尾AAAAAAA.NNBBNNNN-尾AAAAAAA.NNBBNNNN-尾

尾-NNNNBBNN.AAAAAAA尾-NNNNBBNN.AAAAAAA

尾-NNNNNNBB.AAAAAAA尾-NNNNNNBB.AAAAAAA

D＝衔接头，G＝基因组DNA，A＝锚，B＝特定探针碱基，N＝简并探针碱基。

多个衔接头还提供了进一步增加读取能力和每轮循环能够确定多于2个碱基的机会。在一个实施方案中，每轮循环鉴定4-12个碱基。在另一实施方案中，每轮循环鉴定4-8个碱基。在还另一个实施方案中，每轮循环确定12-16或更多个碱基。

在一个实施方案中，将3个衔接头相隔12个碱基定位，从而能够通过读取5个末端的每一个处的6个碱基来获得连续序列的30个碱基。在另一实施方案中，共4个衔接头并读取在两个衔接头间的16个碱基在28轮循环中产生56个碱基的连续序列。在其他实施方案中，使用了由16个碱基分隔的两个(初始的加上一个附加的)衔接头以读取24个碱基。

在一个实施方案中，每轮循环通过同时将探针杂交到多个或所有锚位点来鉴定多个碱基，其中将同一个16种二核苷酸探针的组用于每个锚位点，但独立地读取每个锚位点。在一个实施方案中，这种同时探针连接(simultaneous probe ligation)是通过设计具有不同解链温度的锚并在多个预先确定的温度下测量颜色强度来实现的。

在另一实施方案中，将多个衔接头用于循环引物延伸，以从每个单独的引物提供较长的读取和较少的循环数。

在一个实施方案中，定位信息可以通过对足够数量的、分布在整个DNA片段上且没有任何位置信息的短序列评分来获得，或者从较小数量的位于精确位置上的短序列获得。这种方法的一种变形称为“杂交签名”，其中比较了期望的强度和观察到的强度。在另一实施方案中，可以设计短序列以提供局在的(断续的或连续的)序列信息。这些短序列的三个实例可以如下示意地来代表：

a. (X)aBB(X)bBB(X)cBB(X)dBB(X)eBB(X)f...

b1. BBX6BBX4BBX6BBX4BBXa....

b2. B16Xa

完全定位信息需要的寡核苷酸序列的数量依赖于靶标序列的大小、使用的DNA片段的大小和源DNA的复杂度。对于人类和其他类似复杂的基因组，约5种阳性8-mer或10种阳性6-mer可足够用于100个碱基的DNA片段。为了在2轮循环中评分一个阳性8-mer，通过采用比锚测序多3倍的循环数，可使用共约10轮循环。在一个实施方案中，这种方法并不利用两个锚的插入，并可以使用直接杂交而不用酶来完成。在这种实施方案中，可以利用3000种8-mer。

在一个实施方案中，可以将同一组探针用在不同群的组合(组合集中(combinatorial pooling)中以解码来自带有相同标记的探针库的哪个探针为正。例如，用300种不同标记物标记的所有3000种探针，通过具有用相同探针组合标记的5种探针，可以在两个反应中加以评分。除了6个真阳性，在这两个反应中还将发现大约30个或更多个库相关(pool-related)的假阳性。通过进行另两轮杂交循环(其中探针将另行分组)，仅真阳性探针将被解码，因为它们在两个数据集中同为阳性，而两个数据集中共有的假阳性探针数少于1。可以通过使用每个探针的两个分值中较低的分值来寻找阳性探针。对于真阳性探针，所述较低分值是一个高分值(the lower score is expected tobe high)。对于大多数阴性探针，至少一个分值将是非常低的，并且因此它将取消一个假阳性分值。这种方法帮助降低循环数或者需要的标记物数量，并且为许多应用提供了足够的能力而不需要使用组合标记。

在另一实施方案中，以2-16个亚组的形式在不同亚阵列上被分析的、高度重叠的片段组提供了大量的定位信息。例如，250个碱基的片段，平均开始于每个碱基，可以作为2-16个亚组使用2-16种不同亚组的探针加以分析。仅移位2-26个碱基的DNA片段将用少许(如果不是全部)使用的探针亚组来分析，用至少一个探针亚组提供独特的染色体鉴定。

典型地，20个特定碱基将提供大多数独特的序列所必需的信息。在一个实施方案中，这种信息可以通过如下方式来获得：使用两种锚，在5轮循环中用256种标签读取5x4个碱基，或者以每轮循环读取8个碱基在3轮循环中读取24个碱基(512种加标签的组合)。在另一实施方案中，3轮循环x6个碱基＝18个碱基(5x3+3，在20-30个碱基距离上)，在另一实施方案中，针对3-mer少4倍的标签，可以需要3种锚(3x6+3+3碱基)。

在一个方面中，可以将高容量DNA阵列平台用于同时分析100个患者或其它DNA样品。在直接杂交(或组合连接)定位方法中，仅使用了探针的一个亚组，而且并不自动地提供标签序列。对于4碱基标签，可以将所有256种探针(例如NxUxBBBBUxNx)用于定位或者作为额外探针。如果这些探针还用于定位，那么可能需要256种移位探针的多个组以鉴定标签序列。

在一个方面中，使用5-6种颜色以在一轮解码循环中解码所有16种二核苷酸并读取2-12个碱基。在一个实施方案中，使用了4种标签的组；在另一个实施方案中，将该组扩展到6种标签。可以将多轮解码循环单独使用或与具有不同解链温度的锚联合使用以增加可以在单轮解码循环中读取的碱基数量。

在一个方面中，通过试验在衔接头的每个末端上的2个碱基并通过使用两种相应的锚，每轮连接循环读取4个碱基。可以同时的使用两种类型的探针B2N6-尾和尾-N6B2。每种探针类型可以具有独特的尾和包含6种独特标签的匹配组。两轮循环使用两个6种标签的组，将鉴定4个碱基。在11轮连接循环中，将确定42个连续碱基和2个多余碱基。为了读取配对的42+18＝60个碱基，将需要15轮连接循环。

另在一个方面中，每轮连接循环读取8个碱基。可以使用共4个锚(两个锚的两侧各一个)。探针和标签可以和在第一选项中的相同。因此，在两轮解码循环中，可以确定一个衔接头的每一侧的2个碱基(2bases on eachside of one adaptor)。因为额外2个锚可以用于第二衔接头，因此需要额外的信息以区别两个阳性2-mer中的哪个属于哪个锚/衔接头末端。这可以通过为第二衔接头设计两个具有较高的解链温度(Tm)的锚来实现。因此，图示的是，4个锚是：

衔接头1 衔接头2

...GGGGDDDDDDDDDDDDDDDDGGGGGGGGGGGGDDDDDDDDDDDDDDDDDDDDDDDDDDGGGGG...

AAAAAAAA AAAAAAAA AAAAAAAAAAAAA AAAAAAAAAAAAA

D＝衔接头碱基，G＝基因组碱基，A＝锚碱基，

在两轮标准的5-6种染料的解码和成像的循环后，可以应用严紧清洗去除低Tm锚和与它们连接的加尾探针，但不影响高Tm的锚。通过重复两轮标签结合和荧光测定的循环，测定了对带有较长(较高Tm)的锚的第二衔接头特异的荧光信号。第一组和第二组测量值间的差给出了与第一衔接头对应的2-mer所产生的信号。在更高温度下的剥离清洗将去除Tm较高的锚，并释放出DNA用于下一轮连接循环。为了容易剥离，Tm较高的锚可以是光可切割、化学可切割或者温度可切割的。为了读取更多个碱基，可以将该方法重复3次以读取两个衔接头周围的24个碱基，或者重复6次以读取4个衔接头周围的48个碱基。为了读取第五衔接头的剩余12个碱基，可能需要3轮额外循环。在这三轮循环中，带有相同或者经移位的锚-探针对的12个之前已测序的碱基的重复测序还可以发挥数据质量控制的作用。总计可以使用9轮连接循环和36轮解码循环以确定72个碱基(60个独特碱基和12个重复碱基)。

在另一个方面中，通过将该方法从2个水平扩展至3个水平(levels)来每轮循环读取12个碱基，每轮连接循环提供12个碱基(3x2x2)的读取。相似地，在仅6轮连接循环中就可以确定72个碱基(60个独特碱基和12个重复碱基)。Tm方法可以用在锚的数目更多的许多其它配置中，可以将所述锚差别性地逐一去除。这种方法的关键优势在于，在一个连接反应中，将一种类型的探针连接到3个不同的锚上。

在另一个方面中，在一轮连接循环中读取8个碱基，而不使用锚的Tm区分。为了达到这点，设计锚探针以读取2个碱基，同时由非锚探针读取2个碱基。可以在一轮连接循环中分析两个这样的配对，每轮循环读取总共8个碱基，如下所示。

DDDDDDDDGGGGGGGGGGGGDDDDDDDDDDDDDDDDDDDGGGGGGGGGGGGDDDDDDDDD

尾-AAAAAABB.BBNNNNNN-尾尾-NNNNNNBB.BBAAAAAA-尾

(第一轮循环)

尾-AAANNNNBB.BBNNNNNN-尾尾-NNNNNNBB.BBNNNNAAA-尾

(第二轮循环)

尾-NNNNNNBB.BBAAAAAA-尾尾-AAAAAABB.BBNNNNNN-尾

(第三轮循环)

D＝衔接头碱基，G＝基因组碱基，A＝锚碱基，B＝特异的探针碱基，N＝简并探针碱基

解码将在四轮循环中进行，所述四轮循环具有对4组尾巴中的每一组特异的4组标签。有趣的是，这种方法可以使用5个衔接头在8轮连接循环中提供44+20＝64个碱基(8+4x12+8)，而不产生任何冗余的碱基读取。这个系统的一种自然的发展是，使用5个衔接头读取两个衔接头之间的16个碱基(而不是12个碱基)并且一共读取80个碱基。可能需要的新发展主要是实现一种与锚探针上存在的编码尾巴相兼容的探针-锚连接产物稳定化方法。

这些方法与插入相隔12个碱基的1-2个额外的衔接头相结合，可以在仅6-15轮连接循环中将每轮连接循环的平行读取从2个碱基增加至8个碱基或甚至12个碱基。在进一步的实施方案中，在相邻的衔接头之间读取16个碱基，可以仅使用起始的+2插入的衔接头，从而能够确定连续序列的40(2x16+8)个碱基。

多重探针-锚连接测定法(multiplex probe-anchor ligation assay)

在一个方面中，制备了这样的探针组，它们包含16种具有BBNNNNNN-尾结构的探针，其中所述尾巴的长度为约15至20个碱基，和用荧光团标记的与尾互补的标签序列。设计尾巴和标签以使其对被分析的DNA的干扰最小。在一个实施方案中，从iso-c和iso-g核苷酸来制备尾巴和标签序列，以防止标签序列与模板DNA相互作用。

用不同的尾巴和标签序列来测试不同的BBNNNNNN-尾探针的效率是可能的。可能需要16种尾序列，但16种探针(带16种不同的尾巴)中可能仅有8种探针在每轮解码循环中被分析，因为4种颜色混合的最大容量(capacity)是两种(不包括作为可能的探针指示物的空信号)的10种可能的组合。每种尾序列可以具有结合两个标签的容量(capacity)，并且采取这种设计的每种标签可能仅具有一个附接的荧光团。可以最先设计4种标签的组，每种标签针对每种颜色。可以将这些标签的互补序列组合以产生8种尾巴(可能的组合共有10种)。16种尾巴中其余的8种可能也需要另一组4种标签，但是它们可以携带和用于第一组4种标签相同的荧光团。

在一个方面中，可以制备具有单荧光团(例如TAMRA)的探针，以确定不同标签组合的相对强度(strength)(即杂交体强度)。一旦获得这种信息，就有可能将荧光团与标签匹配以使强度标准化。还可以将单荧光团标签组用于确定带有共同尾结构的探针的BBNNNNNN区域的相对效率。一旦已确定了这些参数，可以制备16种BBNNNNNN-尾探针的组。可以将这种探针组用于杂交到来自PCR的RCR产物和合成的靶标环或者甚至复杂的基因组样品。

在一个实施方案中，首先将排成阵列的RCR靶标与衔接头探针杂交以确定DNB位置和相对强度。使用标准技术，例如通过提高温度来去除这种探针，然后可以将第二组探针杂交到阵列。第二组探针含有在连接混合物中的锚探针和16种BBNNNNNN-尾探针。反应进行足够长的时间，优选约30分钟，然后将未连接的、未杂交的探针洗去。下一轮添加到小室的可以包括4种标签探针，它们与发生了连接并杂交的BBNNNNNN探针的尾巴杂交。在一些实施方案中，这种杂交可以短至5分钟以达到高信号强度。将该小室再次清洗并且在期望的波长上成像。然后对该小室加热以去除标签，但仍维持在杂交体中的锚-BBNNNNNN-尾探针。然后可以杂交第二组4种标签以对第二组8种BBNNNNNN探针的存在评分。匹配的BBNNNNNN探针和其他15种错配的BBNNNNNN探针之间的区分度水平可以通过信号强度的水平和组合来确定。

在一个实施方案中，为了确立探针-锚连接测定法，提供了探针，例如具有结构AANNNNNN的探针，以便为AATATANN DNA点产生足够的信号，并对TATA序列具有低的ΔG。如果对于一些DNA序列而言最优条件的信号低，那么可以独立地制备匹配探针并加进混合物中，以选择性地仅提高这些探针的浓度。如果须调整在前4个简并的位置上的256种序列中的20个序列，那么可以制备16x20种额外的探针。

在一个实施方案中，完成了用于从基因组区段的另一侧的两个衔接头之间读取2碱基序列的16种探针的开发和测试。这些探针的尾巴和简并碱基可以在5’末端，例如尾-NNNNNNBB。

在本方面的一个方面中，通过使用多种特异的激发模式和用于每种激发模式的最大数量的滤光器来最大化可区分的染料的数量。例如，可以使用2-4次激发，每次激发使用4种不同的波长(总共16种波长)，结合每次激发使用8-16种滤光器。使用算法和软件以分析强度模式并降低来自8-24种染料中的每一种的信号量。

在一个实施方案中，将使用染料的直接标记与使用半抗原(例如生物素)的间接标记相结合以特异地对多种探针染色。直接附接的染料可以接受光漂白，或者可以计算染色前后强度的不同。

在一个实施方案中，通过对淬灭剂的光致脱封闭或化学脱封闭或者进行改变给定染料吸收的化学修饰来扩大可使用的颜色的数量。在脱封闭处理前后测定颜色强度。在完成第一次成像后，可以将染料光漂白，然后测定针对给定波长的信号增加。利用多种类型的淬灭剂或修饰剂(3-4-6)和8种颜色，可以产生总共24-48种非组合的标记物。带有24-48种标记物中的2种标记物的组合标记可能给出276-1128种双标记组合。

提供的长而稳定的锚可改善探针与不同靶标的杂交和连接。在一个实施方案中，增加简并碱基的数量以最小化形成不稳定的杂交体(例如5’TATA3’)的靶标序列的影响。这可以增加探针/靶标杂交体的稳定性，但是在接近连接位点的前2-4个位置上没有完全匹配的探针可能会杂交到靶标并且阻止连接。为了最小化这种负面影响，一个实施方案提供了较高的出发温度和/或温度循环以增加在紧邻锚处杂交的可连接探针的数量。

使用引物延伸的测序

末端测序可以使用特异的标记核苷酸从一个锚/引物末端通过许多单碱基延伸的连续循环来进行。在一个实施方案中，该方法包括其中去除染料或封闭剂以重复进行延伸的步骤。在这种方法中，多个衔接头提供了增加的灵活性。在一个实施方案中，使用移位的引物，在连续的反应中通过单碱基引物延伸来读取2-6个或更多个碱基。可以使用在一个衔接头上的多个同时移位的0+1或1+1引物框或在多个衔接头上的单个框或者可以使用两者。

在一个实施方案中，使用初始的加上3个额外的衔接头提供了4个引物。通过读取每个引物的4个碱基，在16轮循环中使用4种标准的颜色来确定16个碱基，这可以在不用组合标记或加标签的条件下完成。在这种实施方案中，引物延伸在标记的成分上不具有简并碱基，因此降低了所用染料的浓度。因为16个碱基可能不够用于定位，所以可以使用在20-24轮循环中的4种引物x5-6个碱基的延伸。

通过区别性地去除引物，多重引物延伸是可能的。有几种不同的方法可以用于这种去除，这些方法基于包含如下所述的因素：引物长度、GC含量、碱基或者骨架的修饰，例如LNA或PNA、尿嘧啶的掺入或者选定碱基之间的光敏感键。可以在一组中设计2至8个稳定性水平。还可以使用可以具有不同的稳定剂或保护剂的2至4种不同的组。通过应用这些标记方法，可以在少至3-5轮酶循环中确定20-24个碱基。在另一个实施方案中，使用了一种引物保护测定法，其用于多重引物扩增，一次一个碱基。在这种实施方案中，因为在NNN处的错配可以占据超过50％或者超过90％的靶标并且将不被有效地延伸，因此用于第四次延伸的引物，例如UUUUUUUNNN，可提供足够的信号。带有较高特异性的引物可以通过连接UUUUUUU.UUUNNN或UUUUUUU.UNNNNN来产生。

一方面，为了能够在锚的任一侧测序，可以使用附接的引物和原始链的去除或引物入侵技术(primer invasion technique)来将附接的ssDNA转化为dsDNA状态。一种去除原始链的方法是在插入的衔接头中掺入限制酶的结合位点，所述限制酶仅切割一条链。然后将断裂的链变性并洗去。

为了进行连续或重叠的框或读取2-3个碱基，可以使用不同的锚和/或探针设计。例如：

第一轮循环：UUUUUUUUUUU.BBNNNNNN

第二轮循环： UUUUUUUUUNN.BBNNNNNN或

UUUUUUUUUUU.NNBBNNNN

第三轮循环：UUUUUUUUUNN.NNBBNNNN

其中U代表共同的预先确定的碱基，B代表特定的碱基，而N代表简并碱基。

可以将具有简并碱基的锚设计成两部分，以确保优先结合在简并位置上的具有匹配的碱基的锚。可以使用重叠框或移位框来多次读取同一靶标中的每个碱基。以下给出了对锚之后的前4个碱基的多次读取的两个实例：

UUUUUUUUUU.UBBNNNNN

UUUUUUUUUUU.BBNNNNNN

UUUUUUUUUUN.BBNNNNNN

UUUUUUUUUUU.NNBBNNNN

UUUUUUUUUNN.BBNNNNNN

UUUUUUUUUUN.BBNNNNNN

其中U代表共有的预先确定的碱基，B代表特定碱基，而N代表简并碱基。用句点(.)表示连接位点。

检测仪器

在本发明的一个方面中，提供了硬件以容许测序方法的连接和杂交事件的检测。在一个实施方案中，系统硬件包含三种主要组件；照明系统、反应小室和检测器系统。检测仪器可以包含几种特征，例如可调整的激光源(adjustable laser power)、电子闸(electronic shutter)、自动对焦(autofocus)和操作软件。

来自根据本发明产生的随机阵列上的单分子的信号可以通过许多探针系统来产生并检测，所述检测系统包含但不限于扫描电子显微镜、近场扫描光学显微镜(near field scanning optical microscopy，NSOM)、全内反射荧光显微镜(total internal reflection fluorescence microscopy，TIRFM)等。在文献中可找到关于这些技术在表面纳米尺度结构的分析和检测中的应用的丰富指导，如通过下列参考文献所证明，通过提述将这些参考文献并入本文：Reimer et al，editors，Scanning Electron Microscopy：Physics of ImageFormation and Microanalysis，2^nd Edition(Springer，1998)；Nie et al，Anal.Chem.，78：1528-1534(2006)；Hecht et al，Journal Chemical Physics，112：7761-7774(2000)；Zhu et al，editors，Near-Field Optics：Principles andApplications(World Scientific Publishing，Singapore，1999)；Drmanac，International patent publication WO 2004/076683；Lehr et al，Anal.Chem.，75：2414-2420(2003)；Neuschafer et al，Biosensors & Bioelectronics，18：489-497(2003)；Neuschafer et al，美国专利6,289,144等。特别感兴趣的是TIRFM，例如，由Neuschafer et al，美国专利6,289,144；Lehr et al(上文引用)和Drmanac，国际专利申请WO 2004/076683所公开的。

在一个方面中，与本发明的阵列一起使用的仪器包含三个基本组件：(i)用于将检测和处理试剂，例如探针、清洗溶液等存储和转移到阵列上的流控技术系统；(ii)反应室或流动池，其容纳或包含阵列并具有流通和温度控制能力；和(iii)照明和检测系统。在一个实施方案中，流动池具有温度控制子系统，其具有将温度维持在约5-95℃范围内，或者更具体地，10-85℃范围内的能力，并且可以以每秒约0.5-2℃的速率来改变温度。

在一个方面中，可以使用用于1”平方170微米厚的盖玻片的流动池，所述盖玻片已经过衍生化以结合本发明的大分子结构。该池通过将玻璃和垫圈夹入两个平面之间来装入“阵列”。一个平面具有大小足以容许成像的开口和用于盖玻片的分度孔(indexing pocket)。另一个平面具有用于垫圈的分度孔、液流孔(fluid port)、和温度控制系统。一个液流孔连到注射泵，注射泵将液体从流动池中“吸入”或“推出”；另一个液流孔连到漏斗样的混合室。混合室装备有液面传感器。将溶液分配进该漏斗，如果需要的话加以混合，然后吸入流动池。在液面传感器在漏斗与流动池的连接中读取到空气时，将泵倒转已知的量以将液体返回到漏斗。这样防止空气进入流动池。可以将盖玻片表面分成区块(section off)并分为条段(strip)以适应由于夹入引起的液体流动/毛细管效应。这样的基片可收纳在“露天”/“露盖”(“open air”/“open face”)室以通过消除毛细管流动效应来促进缓冲液在基片上的均匀流动。显像可以在Zeiss axiovert200等系统上使用100x物镜、TIRF或落射照明(epi-illumination)、及1.3兆像素Hamamatsu orca-er-ag来完成。这种配置可成像随机地结合到基片上的RCR多联体(非有序(non-ordered)的阵列)。显像速度可以通过降低物镜放大倍数、使用网格图案阵列和增加在每个图像中采集的数据的像素数来改进。

在一个实施方案中，可以使用四个或更多个相机，优选10-16兆像素范围的相机。还可以用多个带通滤波器和分色镜来收集跨越多至4种或更多种发射光谱的像素数据。为了补偿物镜放大降低所致的采光能力降低，可以增加激发光源的功率。每个相机可以与一个或多个流动室一起使用，使得成像系统在样品正进行杂交/反应时不空闲，从而增加通量。因为阵列的探测可以是非连续的，可使用超过一种成像系统来收集来自阵列组的数据，进一步降低测定时间。

在成像过程期间，优选的是基片保持焦点对准(in focus)。维持焦点的一些关键因素有基片的平整度、基片对焦平面的正交性和基片上可能使基片变形的机械力。基片的平整度是可以良好地控制(well-control)的，并且易于获得具有比1/4波平整度更好的玻璃板。基片上不均匀的机械力可以通过杂交室的适当设计来最小化。与焦点平面的正交性可以通过良好调整而高精确的镜台来达到。一般而言，运行自动对焦程序要花费额外的时间，因此最好仅在需要时运行该程序。在优选的实施方案中，获取每幅图像后，使用快速算法来分析以确定图像是否焦点对准。如果图像失焦，那么将触发自动对焦程序。然后该系统会保存物镜Z位置的信息，以供在下一轮成像循环期间返回该阵列的该部分时使用。通过对基片的不同位置上的物镜Z位置定位，可能减少基片图像采集所需的时间。

在一个方面中，针对基于荧光信号的合适的照明和检测系统是装备与80毫瓦532nm固态激光器偶联的TIRF玻片座(slider)的Zeiss Axiovert 200。玻片座以正确的TIRF照明角度透过物镜来照明基片。TIRF还可以不使用物镜而是透过与基片光学偶联的棱镜来照明基片而完成。还可以将平面波导用于实现基片上的TIRF。还可以采用落射照明(Epi illumination)。光源可以是光栅式光源(rastered)、发散光束式光源(spread beam)、相干光源、不相干光源，并可来自于单光谱源或多光谱源。

成像系统的一个实施方案包括具有1.25mm视野(field of view)的20x镜头。10兆像素相机用于检测。这种系统能对以1微米间距附接于图案阵列的约150万个多联体成像上。在这种配置下，每个多联体有约6.4个像素。每个多联体的像素数量可以通过增加或者降低物镜的视野来调整。例如，1mm视野产生每个多联体的10个像素的值，而2mm视野产生每个多联体2.5个像素的值。视野可以相对于物镜的放大率和数值孔径进行调整，以产生每个多联体的仍能被光学系统和图像分析软件分辨最低像素数。

TIRF和EPI照明都容许使用几乎任何光源。一种照明方案提供一组通用的单色照明源(用于6-8种颜色的约4种激光)，其为多个成像仪(imager)所共享。每个成像仪在任何给定时间收集在不同波长上的数据，而光学交换系统将把光源切换到成像仪。在这种实施方案中，照明源优选地产生至少6种，但更优选8种不同的波长。这些源包括气体激光器、通过光纤耦合器联合的多个二极管泵浦固体激光器、经滤光的氙弧灯、可调谐激光器或更新的Spectralum Light Engine(即将由Tidal Photonics提供)。SpectralumLight Engine使用棱镜光谱分光。将光谱投射到Texas Instruments DigitalLight Processor上，其可以选择性地将光谱的任何部分反射到纤维或光学连接器中。这个系统能够监测并校准横跨单独波长的能量输出以将它们保持恒定，从而在灯泡老化或更换灯泡时自动地补偿强度差异。下列表格代表了可能的激光器的实例、染料和滤光器。

激光	激发滤光片	发射滤光片	染料
激光	激发滤光片	发射滤光片	染料		407nm	405/12	436/12	Alexa-405	401/421
407nm	405/12	546/10	cascade yellow	409/558	407nm	405/12	436/12	Alexa-405	401/421
407nm	405/12	546/10	cascade yellow	409/558	488nm	488/10	514/11	Alexa-488	492/517
543nm	546/10	540/565	Tamra	540/565	488nm	488/10	514/11	Alexa-488	492/517
543nm	546/10	540/565	Tamra	540/565	543nm	546/10	620/12	Bodipy577/618	577/618
	546/10	620/12	Alexa-594	594/613	543nm	546/10	620/12	Bodipy577/618	577/618
	546/10	620/12	Alexa-594	594/613	635nm	635/11	650/11	Alexa-635	632/647
635nm	635/11		Alexa700	702/723	635nm	635/11	650/11	Alexa-635	632/647

在一个方面中，成像通过100x物镜来完成。激发光源是80毫瓦二极管泵浦固体激光器。这种光源已成功用于TIRFM和EPI照明技术。使用1.3兆像素Hamamatsu orca-er-ag相机和Ziess axiovert 200倒置显微镜来获得图像。目前，以这种配置成像随机结合到基片上的DNB的曝光时间是0.5秒。

为了处理多轮杂交循环，可以实现与反应室和检测系统完全整合的机器人工作站(robotic station)以与本发明一起使用。落射荧光(epifluorescence)可以用于检测每个靶标位点的多于10-20个荧光分子。使用落射荧光的优势在于它使得多种颜色的探针能够与标准显微镜一起使用。

在一个方面中，使用一种两件套(two piece)流动池来容纳已衍生化并活化以结合DNB的1”平方、170μm厚度的盖玻片。将侧口连接到从流动池“吸入”或“推出”液体的注射泵。将第二端口连接到装备有液面传感器的漏斗样的混合室。将溶液分配入混合室，如果需要的话将溶液混合，然后吸入流动池。在液面传感器检测到在漏斗到流动池的连接中有空气时，将泵倒转已知的量，以将液体返回漏斗。这可防止空气进入流动池。这个室对盖玻片大小的基片已工作良好，并且可以使用其改变形式以用于较大的基片。可以这种整合了杂交室和成像子系统的三轴机器人龙门架移液系统(robotic gantry pipetting system)功能化，用于完全自动化的探针移液。

基准(fiducials)

在一个实施方案中，将捕捉池的规则图案以这样的方式来中断，以将位置信息编码到每个捕获的图像中。可以从每个图像可以从图案中去掉约1000个池以产生一种10位的密码，该密码将代表每种基片上最多1024个指定的位置(图5)。

在图像分析期间可以将编码区的物理特征作为参考用来定位图像中的所有像素，而将密码自身用于证实仪器所成像的基片区域是正确的。编码区的关键特征是每个元件被无结合点“空区域”团来代表。这消除了对基片上荧光标志的需要。对于给定的探针组为阳性的RCR产物限定了每个元件的边界。这意味着，即使结合到表面上的RCR产物的仅5％至10％对给定的探针库为阳性，该区域将仍是可识别的。在一个实施方案中，如果每个编码元件代表50个捕捉池，那么该密码是可读的。

本发明的试剂盒

本文描述的方法的商业化中，某些试剂盒对本发明的随机阵列的构建和对它们在不同应用中的用途是特别有用的。用于应用本发明的随机阵列的试剂盒包括但不限于用于确定靶标多核苷酸的核苷酸序列的试剂盒。试剂盒典型地包含具有表面的至少一种支持物和一种或多种试剂，所述试剂对构建本发明的随机阵列或用它实施应用是必须的或有用的。这些试剂包括但不限于核酸引物、探针、衔接头、酶等，并且分别包装在容器(例如但不限于小瓶、试管或瓶子)中，置于合适用于销售(commercial distribution)的包装(例如但不限于盒子、密封袋、发泡包装和纸盒)中。典型地，该包装含有表明被包装材料(packaged materials)的用途的标记或包装说明书。如这里所使用的，“包装材料”(packaging materials)包括任何被用来包装试剂盒中的试剂以供销售的物品，包括但不限于容器、小瓶、试管、瓶子、袋、发泡包装、标记、标签、说明图标和包装说明书。

另一方面，本发明提供了用于对靶标多核苷酸测序的试剂盒，包含下列组分：(i)具有平坦表面的支持物，所述表面具有光学上可分辨的离散间隔区的阵列，其中每个离散间隔区具有小于1μm²的面积；(ii)第一组探针，用于杂交到随机布置离散间隔区上的多个多联体，每种所述多联体含有靶标多核苷酸的DNA片段的多个拷贝；和(iii)第二组探针，用于杂交到所述多个多联体，使得只要来自第一组的探针邻近地杂交到来自第二组的探针，所述探针就被连接。这些试剂盒可以进一步包括连接酶、连接酶缓冲液和杂交缓冲液。在一些实施方案中，离散间隔区可以含有附接的捕捉寡核苷酸，并且每个多联体可以含有与捕捉寡核苷酸互补的区域，使得所述多联体能够通过捕捉寡核苷酸和所述多联体的互补区之间形成复合物而附接到离散间隔区。

另一方面，本发明包括用于环化DNA片段的试剂盒。在示例性的实施方案中，这种试剂盒包括下列组分：(a)至少一个衔接头，用于连接到一种或多种DNA片段上并与之形成DNA环；(b)末端转移酶，用于将同聚体尾附接到所述DNA片段上，从而为所述衔接头寡核苷酸的第一末端提供结合位点，(c)连接酶，用于将所述衔接头寡核苷酸的一条链连接到所述DNA片段的末端以形成所述DNA环，(d)引物，用于退火至所述衔接头寡核苷酸的所述链的区域上，和(e)DNA聚合酶，用于在滚环复制反应中延伸退火至所述链上的引物。在进一步的实施方案中，上述衔接头寡核苷酸可以具有第二末端，其具有在4至12个范围内的许多简并碱基。上述的试剂盒可以进一步包括用于末端转移酶、连接酶和DNA聚合酶的反应缓冲液。

在另一方面中，本发明包括使用CircLigase^TM酶(EpicentreBiotechnologies，Madison，WI)来环化DNA片段的试剂盒，该试剂盒包含体积排除聚合物(volume exclusion polymer)。在进一步的实施方案中，试剂盒包括下列组分：(a)反应缓冲液，用于控制pH并提供用于CircLigase的优化的盐浓度，和(b)CircLigase辅因子。在另一方面中，用于这种试剂盒的反应缓冲液包含0.5M MOPS(pH7.5)，0.1M KCl，50mM MgCl2，和10mM DTT。在另一方面中，这种试剂盒包括CircLigase，例如10-100μLCircLigase溶液(100单位/μL)。在美国专利4,886,741(将其并入作为参考)中公开了示例性的体积排除聚合物，包括聚乙二醇、聚乙烯吡咯烷酮、葡聚糖硫酸酯等聚合物。在一个方面中，聚乙二醇(PEG)是50％PEG4000。在一个方面中，用于环形成的试剂盒包括下列成分：

量组分最终浓度

2μL	CircLigase^TM10X反应缓冲液	1X
2μL	CircLigase^TM10X反应缓冲液	1X	0.5μL	1mM ATP	25μM
0.5μL	50mM MnCl₂	1.25mM	0.5μL	1mM ATP	25μM
0.5μL	50mM MnCl₂	1.25mM	4μL	50％PEG4000	10％
2μL	CircLigase^TM ssDNA连接酶(100单位/μL)	10单位/μL	4μL	50％PEG4000	10％
2μL	CircLigase^TM ssDNA连接酶(100单位/μL)	10单位/μL		单链DNA模板	0.5-10pmol/μL
	无菌水			单链DNA模板	0.5-10pmol/μL

最终反应体积：20μL

可以将上述的组分用在本领域中已知的许多不同的规程中，例如：(1)根据DNA长度(具有5’-磷酸和3’羟基的ssDNA模板)，在60-96℃加热DNA；(2)在60℃将2.2X反应混合物预热约5-10分钟；(3)如果将DNA预热至96℃，在60℃将其冷却。在60℃混合DNA和缓冲液，而不使其冷却，并且温育2-3小时；(4)热失活酶以停止连接反应。

通过参考下列非限制的实施例可以更好的理解本发明，所述实施例是作为本发明的示例提供的。介绍了下列的实例以全面地阐明本发明优选的实施方案，但是绝不应将它们解释为限制本发明广泛的范围。

实施例

实施例1：DNB的基于RCR的形成和附接

将两种合成靶标共扩增(co-amplify)。将约一百万个分子捕捉在玻璃表面上，然后针对靶标之一进行探测。成像和光漂白第一探针后，探测第二靶标。与扩增子特异的探针的连续杂交表明阵列上的每个点独特地对应两个扩增子序列中的任何一个。还证实，可以通过加热至70℃来将探针去除，然后将其再杂交，以产生相等强度的信号。

实施例2：环形成和扩增的验证

使用大肠杆菌DNA(图6)验证了环形成和扩增过程。使用通用模板DNA来将通用衔接头连接到靶标分子的5’末端，所述通用模板含有用于结合所有基因组序列的简并碱基，所述通用衔接头还发挥捕捉探针和RCR引物的结合位点的作用。通过使用末端转移酶添加聚dA尾来修饰靶标分子的3’末端。然后使用与衔接头和寡dA尾互补的桥接模板来环化经修饰的靶标。

实施例3：与缩合的(condensed)多联体的连接的验证

试验了与缩合的多联体发生探针连接的能力。在20℃使用连接酶进行反应10分钟，接着短暂清洗室以去除过量的探针。6-mer和标记的5-mer的连接产生与11-mer的信号水平相当的信号水平。将包括随机阵列的图像分析的软件模块在模拟数据上试验，以进行全基因组序列的重建。

实施例4：使用单个阵列从多种病原体鉴定靶标

将来自炭疽芽孢杆菌(Bacillus anthracis)和鼠疫耶尔森氏菌(Yersiniapestis)的诊断区域的PCR产物转变成单链DNA，并附接于通用衔接头。然后将这两种样品混合并用RCR一起复制，并沉积到的芯片表面成为随机阵列。与扩增子特异的探针的连续杂交表明，阵列上的每个点独特地对应两种扩增子序列中的每一种，并且可以用探针来特异性地鉴定它们(图7)，从而证明鉴定在亚微米大小的DNA纳米球中存在的DNA的敏感性和特异性，所述DNA纳米球具有约100-1000个拷贝的通过RCR反应产生的DNA片段。

使用标准PCR技术扩增了来自炭疽芽孢杆菌的155bp扩增子序列和来自鼠疫耶尔森氏菌的275bp扩增子序列，所用的PCR引物对中的一个引物是磷酸化的。使用λ核酸外切酶降解磷酸化的那条链，以产生PCR产物的单链形式。然后用T4DNA多核苷酸激酶来磷酸化其余一条链的5’末端以容许单链产物连接到通用衔接头。使用T4DNA连接酶，在与靶标的5′末端和通用衔接头的3’末端互补的模板寡核苷酸的帮助下，将通用衔接头连接到靶标分子的5′末端。然后使用带有与衔接头和靶标的3’末端互补的碱基的桥接模板来环化连接了衔接头的靶标。通过用核酸外切酶I处理去除线形DNA分子。通过混合单链样品，使用Phi29聚合酶，以桥接寡核苷酸作为起始引物环绕环化的衔接头-靶标分子进行复制，来实施RCR。通过捕捉寡核苷酸将RCR产物捕捉于载玻片上，所述捕捉寡核苷酸附接于衍生化的玻璃盖玻片上，并且与通用衔接头序列互补。

对于阵列化的来源于炭疽芽孢杆菌和鼠疫耶尔森氏菌PCR扩增子的靶标纳米球分子，顺序地用TAMRA标记的与通用衔接头序列互补的11-mer探针或者与两个扩增子序列之一互补的11-mer探针来探测。通过重列获自3种探针的连续杂交的图像(图7)，可以看出大多数与衔接头探针(蓝点)杂交的阵列化分子将仅杂交到或扩增子1探针(红点)或扩增子2探针(绿点)，杂交到两者上的非常少。这种特异的杂交模式证明在阵列上的每个点仅含有一种类型的序列，或是炭疽芽孢杆菌扩增子或是鼠疫耶尔森氏菌扩增子。还证明，通过使用序列特异的探针，rSBH方法能够区别沉积在阵列上的具有不同序列的靶标分子。

实施例5：对自含有简并碱基的80-mer寡核苷酸产生的阵列化DNB中的碱基位置解码

将含有简并碱基的合成寡核苷酸的单独分子分成4个亚群，每个亚群在那个特定位置上含有一个A、C、G或者T碱基。自这种合成DNA生成的DNB的阵列可以具有约25％的带有每种所述碱基的点。对所述4种碱基中每一种特异的探针对的四次连续杂交和连接鉴定了这些亚群(图8)。

将一种5′磷酸化、3′TAMRA标记的五聚体寡核苷酸与四种六聚体寡核苷酸之一配对。这四种连接探针对中的每一种杂交到靶标的含有A、C、G或T的版本。对于大多数靶标获得了大于3的区别分值，证明了鉴定纳米球靶标之间的单碱基差异的能力。区别分值是最高的点分值除以同一个点的其他3个碱基特异信号的平均值的结果。调整测定条件(缓冲液组成、所有成分的浓度、循环中每步的时间和温度)可以产生相对于背景的较高信号，从而为计算完全匹配对错配比率提供可能。

在6-mer探针的点样阵列上进行了相似的连接测定。在这种情况中，完全匹配/背景比率为约50，而平均完全匹配/错配比率为30。结果进一步证明，通过增加连续探针循环的数量或者通过每个循环使用用不同染料标记的4种或更多种探针，能够确定DNB中存在的DNA的部分或全部序列。

为了鉴定亚群，使用了一组对所述4种碱基分别具有特异性的4种连接探针。将5′磷酸化、3′TAMRA标记，对应于T1A的第33-37位，序列为CAAAC的五聚体寡核苷酸(探针T1A9b)与对应于第27-32位的下列六聚体寡核苷酸中的一种配对：ACTGTA(探针T1A9a)，ACTGTC(探针T1A10a)，ACTGTG(探针T1A11a)，ACTGTT(探针T1A12a)。这四种连接探针对中应该分别杂交到T1A的含有A、C、G、或T的版本。对于每轮杂交循环，将探针与阵列在含有T4DNA连接酶的连接/杂交缓冲液中于20℃温育5分钟。将过量的探针在20℃洗去，用TIRF显微镜来拍摄图像。剥离结合的探针以准备下一轮的杂交。

将衔接头特异的探针(BrPrb3)杂交到阵列上以证实所有点的位置(图8)。然后将0.4μM的4种连接探针对连续地杂交到阵列上：杂交到A特异的连接探针对的点在图5中显示为红色，C特异的点为绿色，G特异的点为黄色而T特异的点为青色。在图5中，环A指出了一个既杂交到衔接头探针又杂交到A特异连接探针对的点的位置，暗示在排列在这个点上的DNA来源于在第32位上含有A的T1A分子。很清楚，大多数点只与4种连接探针对中的一种结合，从而容许特异地确定第32位的碱基。

使用内部的图像分析程序来鉴定点，所用的图像是为使用衔接头探针的杂交循环拍摄的。对于随后的使用碱基特异连接探针的循环，也鉴定了相同的点，并定量了荧光信号。对于每个点的每个碱基特异的信号的每个信号计算区别分值。区别分值是点的分值除以同一点的其它3种碱基特异信号的平均值的结果。对于每个点，将4种碱基特异的区别分值中的最高值与第二高的值相比较。如果两者的比率大于1.8，那么选择对应于最大区别分值的碱基用于碱基判定。在这种分析中，成功地对超过500个点进行了碱基判定，平均区别分值为3.34。平均完全匹配的信号为272，而平均单个错配信号(来自未选择的碱基的信号)为83.2。因此完全匹配/错配的比率为3.27。通过定量来自随机选择的空点的信号来计算图像的背景噪音，这些空点的平均信号为82.9。因此完全匹配/背景噪音比率为3.28。在这些实验中，由于全匹配信号相对背景来说较低，限制了错配的区分度。

实施例6：使用探针-锚连接测定法来解码合成的80-mer寡核苷酸末端处的2个简并碱基

使用5’末端处含有8个简并碱基的合成寡核苷酸模拟随机基因组DNA末端。在用这种寡核苷酸生成的DNA纳米球中这8个简并碱基将直接与衔接头序列相邻。为了证明使用探针-锚连接方法来对与已知衔接头序列邻近的2个未知碱基的测序的可行性，将带有可杂交到衔接头序列3’末端的特异序列的12-mer寡核苷酸用作锚，而将一组16种TAMRA标记的寡核苷酸(以BBNNNNNN的形式)用作序列读取探针。

使用BBNNNNNN探针组的亚组(即以GA、GC、GG和GT替代BB)，可以鉴定产生自特异地结合于这四种探针中的一个探针的靶标的纳米球阵列上的点，而且平均的完全匹配/错配比率超过20(图9)。

实施例7：产生结构化(structured)纳米球阵列

制备捕捉探针的规则的线排列，各条线平均相隔5μm。线使用拉伸的玻璃毛细管来产生，玻璃毛细管成45度角倾斜至尖端大小5μm，载入含5μM捕捉探针的1μl水，并通过精密龙门式机器手来划过载玻片。使得DNB附接到盖玻片表面，然后用对衔接头特异的探针来检测。图10显示了针对表面上捕捉探针沉积区域的高密度附接，提示如果制备了带有亚微米结合位点的基片，那么可以将DNB排布成网格。

实施例8：用多个衔接头成环的演示

通过引物之一的磷酸化和用λ核酸外切酶处理去除磷酸化的链，从双链产物获得了长度为70个碱基的合成靶标DNA和长度为200-300bp的PCR来源的片段。将单链片段连接到用于环化的衔接头。如本文所描述，进行的聚合、IIs型限制酶消化和与新衔接头的再连接。

使用最终衍生的环的RCR扩增来完成该方法是成功的证明。简而言之，将DNA环和与最后导入的衔接头互补的引物和Phi29聚合酶在30℃温育1小时以产生单个多联体分子，该多联体分子由的最初的DNA环的数百个重复拷贝组成。RCR产物对盖玻片表面的附接还可以通过利用多联体中与表面上的附接寡核苷酸互补的衔接头序列来完成。利用衔接头独特的探针的杂交来证明单独的衔接头被掺入了环并且最终掺入了RCR产物。为了证明衔接头掺入了环内期望的位置，将序列特异的探针(标记的5-mer)用于合成或RCR来源的序列，以使识别衔接头末端序列的未标记锚探针能够发生连接。还使用了克隆和测序来证实DNA完整性。通过在每次环切割后产生干净的ssDNA，使得每个衔接头的掺入可以使用相同的环闭合化学法，从而简化了该过程。

Claims

1.鉴定在包含多个检测位置的靶标序列的一个检测位置上的第一核苷酸的方法，所述方法包含：

(a)提供多个多联体，其中每个多联体包含多个单体，每个单体包含：

i)所述靶标序列的第一靶标域，其包含第一组靶标检测位置；

ii)第一衔接头，其包含IIs型内切核酸酶限制位点；

iii)所述靶标序列的第二靶标域，其包含第二组靶标检测位置；和

iv)第二散在衔接头，其包含IIs型内切核酸酶限制位点；

(b)鉴定所述第一核苷酸。

2.根据权利要求1的方法，其中将所述靶标序列多联体固定化在表面上。

3.根据权利要求2的方法，其中所述鉴定步骤包含：

(a)使所述多联体与一组测序探针接触，每个所述探针包含：

i)与所述衔接头之一互补的第一域；

ii)在第一询问位置上的独特核苷酸；和

iii)标记；

所述接触在这样的条件下进行，其中如果所述独特核苷酸是与所述第一核苷酸互补的，那么测序探针杂交到所述多联体；和

b)鉴定所述第一核苷酸。

4.根据权利要求2的方法，其中每个衔接头包含锚探针杂交位点，并且所述鉴定步骤包含：

(a)将锚探针杂交到所述锚探针杂交位点；

(b)将测序探针杂交到邻近所述衔接头的靶标检测位置；

(c)将邻近的发生杂交的测序探针和锚探针连接以形成连接的探针；和

(d)检测所述连接的探针以鉴定所述第一核苷酸。

5.根据权利要求2的方法，其中每个衔接头包含锚探针杂交位点，并且所述鉴定步骤包含：

(a)将锚探针杂交到所述锚探针杂交位点；

(b)在这样的条件下添加聚合酶和至少一种包含标记的dNTP，在所述条件下，如果所述dNTP是与检测位置完全互补的，则所述dNTP被添加到所述锚探针以形成延伸的探针，由此产生延伸的探针的询问位置；并且

(c)确定在所述延伸的探针的询问位置上的核苷酸。

6.根据权利要求2的方法，其中鉴定在第二检测位置上的核苷酸。

7.根据权利要求6的方法，其中鉴定在第三检测位置上的核苷酸。

8.根据权利要求7的方法，其中鉴定在第四检测位置上的核苷酸。

9.根据权利要求8的方法，其中鉴定在第五检测位置上的核苷酸。

10.根据权利要求9的方法，其中鉴定在第六检测位置上的核苷酸。

11.根据权利要求2的方法，其中所述表面是官能化的。

12.根据权利要求11的方法，其中所述官能化的表面包含官能性模块，所述官能性模块选自胺、硅烷或羟基。

13.根据权利要求2的方法，其中所述表面包含多个空间上迥异的区域，所述区域包含所述固定化的多联体。

14.根据权利要求2的方法，其中使用捕捉探针将所述多联体固定在所述表面上。

15.根据权利要求1的方法，进一步包含断裂基因组核酸以形成靶标序列。

16.根据权利要求1的方法，其中所述第一和第二衔接头的所述IIs型内切核酸酶限制位点是相同的。

17.根据权利要求1的方法，其中所述第一和第二衔接头的所述IIs型内切核酸酶限制位点是不同的。

18.一种基片，包含多个固定化的多联体，所述多联体的每个单体包含：

a)第一靶标序列；

b)包含IIs型内切核酸酶限制位点的第一衔接头；

c)第二靶标序列；和

d)包含IIs型内切核酸酶限制位点的第二散在衔接头。

19.根据权利要求18的基片，其中每个单体进一步包含第三靶标序列和包含IIs型内切核酸酶限制位点的第三散在衔接头。

20.根据权利要求19的基片，其中每个单体进一步包含第四靶标序列和包含IIs型内切核酸酶限制位点的第四散在衔接头。

21.根据权利要求18的基片，其中所述基片是玻璃。

22.根据权利要求21的基片，其中所述玻璃是官能化的。

23.根据权利要求18的基片，其中所述基片包含捕捉探针，并且所述多联体通过杂交被固定化于所述捕捉探针。

24.根据权利要求18的基片，其中所述第一和第二衔接头的所述IIs型内切核酸酶限制位点是相同的。

25.根据权利要求18的基片，其中所述第一和第二衔接头的所述IIs型内切核酸酶限制位点是不同的。

26.根据权利要求18的基片，其中所述靶标序列是基因组核酸序列。

27.根据权利要求26的基片，其中所述基因组核酸序列是人的。

28.在靶标序列中插入多个衔接头的方法，包含：

(a)将第一衔接头连接到所述靶标序列的一个末端，其中所述衔接头包含限制酶的结合位点；

(b)环化来自步骤(i)的产物以产生第一环形多核苷酸；

(c)用限制酶切割该环形多核苷酸，其中该限制酶能够结合到该第一衔接头中的结合位点；

(d)连接第二衔接头，其中所述第二衔接头包含限制酶的结合位点；

(e)环化来自步骤(d)的产物以产生第二环形多核苷酸；

其中任选地重复步骤(c)到(e)以在靶标序列中插入期望数目的衔接头。

29.根据权利要求28的方法，其中所述第一衔接头的所述结合位点包含IIs型内切核酸酶限制位点。

30.根据权利要求28的方法，其中所述第二衔接头的所述结合位点包含IIs型内切核酸酶限制位点。

31.根据权利要求28的方法，其中所述环化步骤包含添加CircLigaseTM酶。

32.根据权利要求28的方法，其中所述环化步骤包含：

(a)将环化用序列添加到所述靶标序列的第二末端；

(b)使桥接模板至少杂交到所述衔接头的一部分和所述环化用序列的一部分；

(c)将所述第一和第二末端连接在一起以环化该靶标序列。

33.鉴定靶标序列的核苷酸序列的方法，该方法包含以下步骤：

(a)在靶标序列内提供多个散在衔接头，每个散在衔接头与靶标序列具有至少一个边界；和

(b)确定至少两个散在衔接头的至少一个边界邻近的至少一个核苷酸的身份，由此鉴定该靶标序列的核苷酸序列。

34.包含一个以上核酸片段的多核苷酸文库，每个片段包含多个散在衔接头，其中每个散在衔接头具有至少一个具有这样的序列的末端，所述序列对于所述多个散在衔接头中其它每一个散在衔接头的序列都是不能交叉杂交的。

35.权利要求34的文库，其中多个散在衔接头具有预定的顺序。

36.权利要求35的文库，其中所述散在衔接头的预定的顺序对每个核酸片段而言是相同的。

37.权利要求34的文库，其中每一个所述核酸片段都是闭合单链DNA环。

38.鉴定靶标序列的核苷酸序列的方法，该方法包含下列步骤：

(a)提供来自该靶标序列的多个片段中每个片段的扩增子，每个片段含有位于预定位点上的多个散在衔接头，每个扩增子包含多个拷贝的片段，且这些扩增子包括基本上覆盖该靶标序列的多个片段；

(b)提供扩增子的随机阵列，这些扩增子以这样的密度固定到表面，使得至少大多数所述扩增子是光学上可分辨的；

(c)在这样的条件下将一个或多个测序探针杂交到该随机阵列，所述条件容许所述一个或多个测序探针与所述散在衔接头上的互补序列之间形成完全匹配的双链体；和

(d)通过在序列特异性反应中延伸所述一个或多个测序探针来鉴定与至少一个散在衔接头邻近的至少一个核苷酸；和

(e)重复步骤(c)和(d)，直至鉴定出该靶标序列的核苷酸序列。

39.鉴定靶标序列的核苷酸序列的方法，该方法包含下列步骤：

(a)提供多联体的随机阵列，所述多联体固定于平坦表面，其中所述表面具有光学上可分辨的离散间隔区的阵列，并且其中每个离散间隔区具有小于1μm²的面积，并且基本上所有这些区域都附接了至多一个所述多联体，每个多联体包含该靶标序列的片段的多个拷贝，每个这样的片段在预定位点上包含多个散在衔接头，并且不同多联体的数目使得它们各自的片段基本上覆盖该靶标多核苷酸；

(b)在这样的条件下，将来自第一组探针的一个或多个探针杂交到该随机阵列：所述条件容许所述一个或多个探针和所述多联体上的互补序列之间形成完全匹配的双链体；

(c)在这样的条件下，将来自第二组探针的一个或多个探针杂交到该随机阵列：所述条件容许所述一个或多个探针和所述多联体上的互补序列之间形成完全匹配的双链体；

(d)对杂交到多联体的连续位点上的来自所述第一组和第二组的探针进行连接；

(e)鉴定所述连接的探针的序列；和

(f)重复步骤(b)到(e)以鉴定该靶标序列的核苷酸序列

40.鉴定靶标序列的核苷酸序列的方法，该方法包含下列步骤：

(a)提供来自该靶标序列的多个多联体，每个多联体包含该靶标序列的片段的多个拷贝，每个片段含有多个位于预定位点上的散在衔接头；

(b)提供多联体的随机阵列，其中多联体以这样的密度固定到表面，使得至少大多数所述多联体是光学上可分辨的；

(c)鉴定至少一个多联体中至少一个散在衔接头邻近的每个片段的至少一部分的序列，由此鉴定该靶标序列的核苷酸序列。

41.权利要求40的方法，其中所述多个多联体包括多个片段，使得所述片段基本上覆盖所述靶标序列。

42.权利要求41的方法，进一步包含从所述多联体的所述片段的所述部分的序列的身份重新构建该靶标序列的核苷酸序列的步骤。