WO2002099129A2

WO2002099129A2 - Designing degenerate pcr primers

Info

Publication number: WO2002099129A2
Application number: PCT/GB2002/002640
Authority: WO
Inventors: David John Griffiths; Paul Kellam; Robert Anthony Weiss
Original assignee: University College London
Priority date: 2001-06-07
Filing date: 2002-06-07
Publication date: 2002-12-12
Also published as: WO2002099129A3; GB0113908D0; AU2002311446A1

Abstract

A method of designing PCR primers for screening for new members of known virus families.

Description

DESIGNING DEGENERATE PCR PRIMERS

Field of the invention

The invention relates to a method of designing a panel of primers for detecting viruses in a high throughput polymerase chain reaction assay.

Background of the invention All organisms appear to be capable of infection by viruses, including bacteria, animals and plants. Viruses require the use of the cellular- translation and transcription machinery to replicate. In the process of replication they often have deleterious effects on the host cell and thus on the host organism. Viruses constitute an important class of pathogens causing many diseases, leading to loss of life in humans and economic loss in the agricultural industries.

Summary of the invention

The polymerase chain reaction (PCR) allows the amplification of a specific region of a polynucleotide. The specificity of the reaction is due to the primers which during the course of PCR bind to the region to be amplified in a sequence specific manner. The invention provides a method of designing primers which can be used in high throughput screening to detect viruses. The method may be used to detect unknown viruses which have not yet been sequenced.

In particular the invention provides a method of designing a panel of degenerate primer pairs for screening for new members of multiple known virus families in a biological sample, wherein each primer pair in the panel binds a sequence that is conserved across members of a said virus family and selectively directs amplification of sequence of said family by PCR, which method comprises

(a) providing a plurality of amino acid sequences from members of a first virus family,

(b) comparing the sequences to identify conserved regions,

(c) designing a first primer pair using a computer based method, wherein each primer in the pair binds a nucleotide sequence that encodes a conserved region identified in (b) and wherein the primer pair is designed to amplify by PCR the nucleotide sequence between the nucleotide sequences that encode conserved regions in members of the first virus family, and

(d) repeating steps (a) to (c) for each virus family. The invention also provides a method of designing a panel of degenerate primer pairs for screening for new members of multiple known virus families in a biological sample, wherein each primer pair in the panel binds a sequence that is conserved across members of a said virus family and selectively directs amplification of sequence of said family by PCR, which method comprises (a) providing a plurality of nucleotide sequences from members of a first virus family,

(b) comparing the sequences to identify conserved regions,

(c) designing a first primer pair using a computer based method, wherein each primer in the pair binds a conserved region identified in (b) and wherein the primer pair is designed to amplify by PCR the nucleotide sequence between the conserved regions in members of the first virus family, and

(d) repeating steps (a) to (c) for each virus family.

The invention additionally provides a panel of primers which has been designed by the method of the invention.

Detailed description of the invention

The invention provides a method of designing a panel of primer pairs which can be used in high throughput virus screening. The method comprises initial steps which deduce the sequences of the primers using computer based calculations, and optional later steps in which the primers are synthesised and tested empirically, for example to determine optimal PCR conditions and/or to select primer pairs with desired further properties.

The panel of primers provided by the method are designed to be capable of detecting unknown viruses based on nucleotide and/or amino acid sequences in the unknown virus which are similar (homologous) to nucleotide and/or amino acid sequences in a known virus. These conserved sequences typically have a role in providing a necessary or advantageous activity or property to the virus. Conserved nucleotide sequences may be coding or non-coding sequences.

In one embodiment the conserved sequences code for or are from virus proteins which have the following activities: DNA or R A polymerase (replicase), topoisomerase (helicase/gyrase), endonuclease (integrase), nucleic acid binding protein, protease, transcription factors, envelope glycoproteins, structural protein (e.g. capsid or nucleocapsid protein).

The panel of primers is designed to detect viruses which are single stranded or double stranded DNA or single stranded or double stranded RNA viruses. The viruses are generally capable of infecting prokaryotic or eukaryotic cells, such as bacterial, animal, plant, yeast or fungal cells. Preferably the viruses .are mammalian (preferably primate) or avian viruses, such as human, pig, horse, sheep, goat, cow, chicken, turkey or duck viruses.

The viruses are typically from any combination of the following families: Adenoviridae, Arenaviridae, Arteriviridae, Astroviridae, Bimaviridae, Bunyaviridae, Caliciviridae, Circoviridae, Coronaviridae, Deltavirus, Filoviridae, Flaviviridae, Hepadnaviridae, Herpesviridae, Orthomyxoviridae, Papovaviridae, Paramyxoviridae, Parvoviridae, Picornaviridae, Polydnaviridae, Poxviridae, Reoviridae, Retroviridae, Rhabdoviridae, Togaviridae or Bornavirus. The primers of the panel are capable of detecting unknown viruses in a biological sample. Such a sample either originates from a single individual or is a pooled sample from individuals of the same species. Thus the panel of primers detects viruses which infect the same species (from which the sample originates).

Generally in the method at least 15, 30, 50, 100, 200 or more, typically up to a maximum of 300 different primer pairs are designed. The primer pairs designed in the method bind sequence which is conserved across members of a virus family. The panel which is designed in the method may comprise primer pairs that bind sequence which is conserved across substantially all members of the family or across a subset of the members of the family, for example across all members of a subfamily or of a genus. Generally, the primer pairs bind at least 70%, at least 80%, or at least 90% of the known viruses of the family, subfamily or genus. Preferably less than 10, such as less than 5, primer pairs will be used for the detection of any given family, subfamily or genus in the panel.

The panel of primer pairs is generally capable of detecting viruses from at least 10, 15, 20, 30 or more families, typically up to a maximum of 35 families. The panel of primer pairs may comprise sets of primer pairs which perform a nested PCR reaction. Generally such a set of primer pairs comprises a first and second primer pair. The first primer pair is able to amplify a template nucleotide sequence from a virus to form a PCR product. The second primer pair is able to amplify a nucleotide sequence using the PCR product generated by the first primer pair as a template. The use of nested sets of primer pairs allows increased sensitivity. In a preferred embodiment each primer pair is specific for a particular virus family, so that it does not detect viruses of other families .

In the method of the invention the plurality of amino acid sequences or nucleotide sequences are provided from different known viruses of the same family. The amino acid sequences or nucleotide sequences will be for the same protein of the different viruses. Typically at least 5, 10, 20, 50, 100 or more sequences are provided. The maximum number of sequences provided will, for example, be 300 sequences.

Each of the sequences which is provided is typically at least 20, 50, 100, 200 or more amino acids or nucleotides in length. In general the maximum length of the nucleotide sequences is 1000 nucleotides and the maximum length of the amino acid sequences is 300 amino acids. The sequences may be obtained from a database of sequences, such as GenBank. The sequences may be obtained from a database comprising virus sequences which are organised into homologous protein families (based on sequence similarity relationships).

In a preferred embodiment the sequences are obtained from the VTDA database (described in Alba et al (2001) Nucleic Acids Research 29, 133-136) or the Virus Division of GenBank. The sequences may be provided in the form of a database, preferably in computer-readable form. The sequences are preferably provided in the form of a computer-readable database constructed using programs which identify homologous protein families, such as GeneTableMaker, MKDOM or PSCBuilder.

The sequences which have been provided are compared to identify conserved regions. Typically such conserved regions will have a length of at least 12 nucleotides, such as at least 15, 21, 27, 36, 99 or more nucleotides (generally up to a maximum length of 200 nucleotides) or at least 4, 5, 7, 10, 25 or more amino acids (generally up to a maximum length of 50 amino acids).

Across the conserved region the virus sequences which are being provided will of course share identity or similarity. Typically the amino acids or nucleotides in at least 50% of the positions in the region will be the same in at least 50 %, 60%, 70%, or 80% of the viruses of the group (i.e. in the family, genus or subfamily).

The algorithm which identifies conserved regions generally uses a multiple sequence alignment method. The method may comprise (a) aligning all pairs of sequences separately to calculate a distance matrix giving the divergence of each pair of sequences, (b) calculating a guide tree from the distance matrix, and (c) aligning the sequences progressively according to the branching order in the guide tree. A preferred algorithm for the aligning the conserved sequences is CLUSTALW as described in Thompson et al (1994) Nucleic Acids Research 22, 4673-80. Other algorithms that can be used for aligning sequences are MultAlin (Corpet (1988) Nucleic Acids Research 16, 10881-90) or Jalview (Clamp et al (1998) http://barton.ebi.co.uk). BLOCKS of conserved regions of amino acids may be extracted from the multiple alignments, typically using the program Blocks Multiple Alignment Processor. Alternatively the entire process of performing multiple alignments and extracting BLOCKS can be performed using BLOCKMAKER (Henikoff and Henikoff (1994) Genomics 19, 97-107). The output from the alignment and BLOCK extraction set (i.e. the information describing the identified conserved regions) is then entered into the algorithm which designs the primers. Such output is typically in the form of partial sequences which correspond to the conserved regions (BLOCKS). These BLOCKS are input into a primer design algorithm. In one embodiment such an algorithm is CODEHOP.

In the primer design step the conserved regions which are chosen as targets for primers preferably comprise few codohs with degenerate counterparts, i.e. preferably the sequence has a low redundancy, such as a redundancy of less than 512 fold, 256 fold or 128 fold. Each primer binds in accordance with Watson-Crick base pairing and thus the binding is sequence specific. Each primer will thus be designed to be wholly or partially complementary to the sequence to which it binds.

Each of the primers typically has a length of at least 8 nucleotides, such as at least 10, 12, 15, 20, 30, 40 or more nucleotides (up to a maximum of 50 nucleotides for example). In one embodiment the primer may. comprises at least 2, 4 or 6, up to a maximum of 10 for example, inosine bases. Inosine is able to bind to any of the four nucleotides and therefore use of inosine causes a reduction in effective redundancy.

Each primer pair will be designed so that the PCR product generally has a length of at least 20, such as at least 50, 100, 200, 500, 1000 or more nucleotides (and typically up to a maximum of 5xl0³ nucleotides long).

Each primer is preferably designed so that it anneals to a single site, i.e. the primer will not bind to any other site in the genome of the relevant virus.

Each primer is preferably designed so that it does not exhibit secondary structure, i.e. the nucleotides in the primer will not bind substantially to any other nucleotide in the primer apart from those to which it is covalently linked. In addition preferably each primer is designed so that it does not bind other primers with the same sequence.

In one embodiment the 3' region, and preferably the 3' terminal nucleotide of the primer binds to the target sequence with high affinity, thus preferably this region or nucleotide comprises a G or C.

Generally each primer is designed to have an annealing temperature of from 30 to 65 ° C, such as 50 to 60 ° C or 35 to 45 ° C. In addition each primer pair may be designed to ensure that the two primers do not bind to each other.

The primers .are designed by a computer based algorithm. In one embodiment such an algorithm designs primers according to the following rules:

1) A set of blocks is input, where a block is an aligned array of amino acid sequence segments without gaps that represents a highly conserved region of homologous proteins. A weight is provided for each sequence segment, which can be increased to favour the contribution of selected sequences in designing the primer. A codon usage table is chosen for the target genome.

2) An amino acid position-specific scoring matrix (PSSM) is computed for each block using the odds ratio method. 3) A consensus amino acid residue is selected for each position of the block as the highest scoring amino acid in the matrix.

4) For each position of the block, the most common codon corresponding to the amino acid chosen in step 3 is selected utilizing the user-selected codon usage table. This selection is used for the default 5' consensus clamp in step 8. 5) A DNA PSSM is calculated from the amino acid matrix (step 2) and the codon usage table. The DNA matrix has three positions for each position of the amino acid matrix. The score for each amino acid is divided among its codons in proportion to their relative weights from the codon usage table, and the scores for each of the four different nucleotides are combined in each DNA matrix position. Nucleotide positions are treated independently when the scores are combined. As an option, the highest scoring nucleotide residue from each position can replace the most common codons from step 4 that are used in the consensus clamp.

6) The degeneracy is determined at each position of the DNA matrix based on the number of bases found there. As an option, a weight threshold can be specified such that bases that contribute less than a minimum weight are ignored in determining degeneracy.

7) Possible degenerate core regions are identified by scanning the DNA matrix in the 3' to 5' direction. A core region must start on an invariant 3' nucleotide position, have length of 11 or 12 positions ending on a codon boundary, and have a maximum degeneracy of 128 (this is the default setting of CODEHOP). The degeneracy of a region is the product of the number of possible bases in each position.

8) Candidate degenerate core regions are extended by addition of a 5' consensus clamp from step 4 or 5. The length of the clamp is controlled by a melting point temperature calculation (the CODEHOP default is 60 °C) and is usually about 20 nucleotides. 9) Steps 7 and 8 are repeated on the reverse complement of the DNA matrix from step 5 for primers corresponding to the opposite DNA strand.

In one embodiment CODEHOP (Rose et al (1998) Nucleic Acids Research 26, 1628- 1635) is used to design the primer pairs. This program uses the above rules.

The primers designed by the algorithm may then be mapped back to the original sequence to choose primer pairs which provide the desired length of PCR product.

The above-described computer based method is repeated until the desired number of primer pairs have been designed. Optionally the primer pairs can then be synthesised and tested. They are typically tested to determine the optimal conditions for using the primers in a PCR reaction.

The PCR reaction is carried out in a PCR mixture that generally comprises the following: the template polynucleotide (which will be amplified in the event of virus detection), one or more primer pairs designed as described above, a polymerase enzyme (typically a DNA polymerase, such as Taq polymerase), deoxynucleotide triphosphates (dATP, dTTP, dCTP and dGTP) and a suitable buffer.

The PCR reaction generally comprises cycles of the following steps: a denaturation step, a primer annealing step and a polynucleotide synthesis step. Typically the PCR reaction comprises at least 25 cycles, such as 30, 35, 40 or more cycles, up to a maximum of 60 cycles for example. Generally in the denaturation step the PCR mixture is heated to a temperature at which the polynucleotides in the PCR mixture (in particular the polynucleotide region to be amplified) denature to single stranded form. The denaturing temperature is generally from 85 to 98 "C. In the primer annealing step the primers bind to template nucleotide sequence in a sequence specific manner. This step is generally carried out at a temperature of from 30 to 65 °C. In the polynucleotide synthesis step the polymerase replicates/synthesises nucleotide sequence based on template sequence by addition of nucleotides to the 3' end of the bound primers. This step is generally carried out at about 72^0

In one embodiment the primers are tested for their ability to amplify one or more of the plurality of nucleotide sequences from known viruses which were used to design the primers, or in the case of amino acid sequences from known viruses being used to design the primers the primers may be tested for their ability to amplify the nucleotide sequence from the virus which encodes the amino acid sequence. The primers may be tested in a range of buffer conditions to determine optimal buffer conditions for PCR using the primers. The buffer conditions which may be tested include pH (typically between 7 and 10), magnesium concentration (typically from 0.5 M to 5 mM), potassium chloride (typically from 0 to 100 mM), ammonium chloride (typically 0 to 100 mM), glycerol (typically 0 to 20%), dimethysulphoxide (typically 0 to 20%), ethanol (typically 0 to 20%), sorbitol (typically 0 to 20%) or betaine (typically 1M betaine).

The primers may be tested at a range of different temperatures to determine the optimal temperatures in the PCR reaction. Preferably the primers are tested in PCR reaction in which a range of primer annealing temperatures are tested. Typically the range of temperatures is from 30 to 65 ° C .

The panel of primer pairs or a group of primers within the panel may be designed to be used together on the same plate (i.e. using the same thermal cycles). Thus such primer pairs will be designed to work at the same annealing temperature.

In one embodiment a group of primer pairs within the panel are designed to have similar optimal conditions for use in PCR so that they can be used optimally in the same well or reaction vessel, i.e. that they can be used in multiplex PCR. Such a group typically comprises at least 2, 3, 4, 5, 6 or more primer pairs (up to a maximum of 8 primer pairs for example).

To provide such primer pairs the computer based method steps may be used to design primer pairs which are calculated to have similar annealing temperatures and/or the primers are tested to select primer pairs which can be used optimally together. Such testing typically determines whether the primers work optimally with the same buffers and/or whether the primers have similar annealing temperatures.

In one embodiment at least one or both primers of each primer pair in the group carries a label. Typically at least one of the primers in each primer pair will carry a different label from that used for the other primer pairs. The PCR product generated by labelled primers carries the labels present on the primers. Thus after the group of primers have been used for PCR in the same well detection of the labels in the PCR products can be used to deduce which PCR product was formed from each primer pair. In one embodiment all forward primers of the group are labelled with one colour and the reverse primers are labelled with a different colour.

In a preferred embodiment the primers are labelled with a fluorescent label, such as fluorescein based labels (e.g. fluorescein isothiocyanate). Different primer pairs may be labelled with fluorescent labels of different colours. The fluorescent labels which are used may be capable of detection by a Beckman CEQ2000™ or Applied Biosystems A3700™ fluorescent DNA analyser. The fluorescent labels may obtained from Beckman Coulter or Applied Biosystems.

Another way of being able to determine which PCR products are generated by which primer pair is for each primer pair in the group to generate a PCR product of different size to the PCR products generated by the other primer pairs of the group. Typically each PCR product which is generated by the group of primers differs in size from all the other PCR products by at least 20, such as at least 50, 100, 200, 500, 1000 or more nucleotides. Each PCR product may for example differ in size from all other PCR products by up to a maximum of 3000 nucleotides.

The following Example illustrates the invention: Example

The Example below refers to Figure 1 which shows how primers were designed using a database known as 'VTDA', and computer programs know as 'CLUSTALW', 'BLOCKMAKER' (or 'BLOCKS') and 'CODEHOP'.

Designing a panel of primers

A panel of primers was designed for detecting unknown viruses from the family Herpesviridae according to the strategy shown in Figure 1. The amino acid sequences of herpes virus DNA packaging protein UL15 were obtained from the VTDA database (Alba et al, see above). These sequences are shown in Table 1. The sequences obtained from the VTDA database were then imported into

CLUSTALW. This compares the protein sequences to identify conserved regions and then aligns the sequences according to the conserved regions. The alignment produced by CLUSTALW is shown in Table 2.

The BLOCKMAKER program was then used to extract blocks of conserved aligned sequences which do not contain gaps from CLUSTALW and enter them into CODEHOP. The primer sequences were then designed by CODEHOP using the conserved sequences. The output from the CODEHOP program is shown in Table 3. The 'Complement of Block' sequences shown in Table 3 shows the sequence of the other strand allowing primers to be designed for amplification in the opposite direction.

Table 1. All protein sequences of DNA packaging protein UL 15 extracted from VTDA. Here written as a list and unaligned.

>gi_10180719 MFGG^GEETKRHFERIiMKTKHDRLGASHRϊrERS IRDGDMVDAPFIiNFAI PVPRRHQTVMPAIGILHNCC

ΩSLGIYS&ITTBMLYSSIACSEFOEIBmiSVPRaPRITNAQAFIjSP mRVΑNSIIFQEYOEmiΑΑSR

NAYYSTrøtfSFISimTSDAF QLTOTISRFSKIΛIASFI

KMILMHATYFVTSVIiGDHAERAER ^VAF^

MSSFEGIRIGYTSHIRKAIEPVFEDIGDRl-RRWFGAimVDHV GETITFSFPSGT.KSTV FASSHtfrNSI RGQDF∞ΛFVDEA^IRPDAVQTIIGFLNQATCKIIFVSSTN^

EHMKHVTDYTNATSCSCrraiNKPVFITtmGAIIRRTAEM

IDRF IYRPS VNNQDPFSQDLYVYVDPAFTA1OT ASGTGVAVIGKYGTDYIVFG EHYFLRA TGESSD

SIGY /AQCa-IQICaiHR RFGVI IAIEGNSNQDSAVAIATRIAIEMISYM AAVAPTPHNVSFYHS S

NG DVEYPYFIJ-QRQKTTAFDFFIAQFNSGRVIJ^QD VS VS TTDPVEYLT QLTNISEVV GPTCT RTFSGKKGGNDDTVVA TMAVYISAHIPDMAFAPIRV

>gi_7673189

MFGG LGEETlOlHFEPJ^KTi DRLGASHR-reRSIRDGDi VDAPF]^

DSLGI YSAITTRMIiYSS lACSEFDELRRDS VPRCTPRITNAQAFLS PMMM ANS I IFQEYDEMECAAHR

NAYYSTMNSFISMRTSDAFKQLTVFISRFSKLLIASFRDV-ΩLD^ K IFDACmFCOTCFTTOSRRASER LRVAFDTPHFSDIV RHFRQRATVF^

MSSFEGIRIGYISΞIRKAIEPVFΕDIGDRl-RR FGAIffiVDWreGETITFSFPSGLKS V FASSH-TrNSI

RGQDFlttLFVDEAliTIRPDAVQTIIGFLNQATCKIIFVSS NSGKASTSF YG GSADDLIiNVVTYICD

EHM HVTDYTNATSCSCYVIiHKPVFITMDGA RRTAEMF PDSFMQEIIGGGVVDRTIC GDRSIFTASA

IDRFljIYRPSTVtraQDPFSQD YVYVDPAFTAN KASGTGVAVIGKYGTDYIVFGLEHYF RALTGESSG SIGYCVAQI-lilQICAIHRKRFGVIKIAIEG SNQDSAVAIATRIAIEMISYMKAAVAPTPHNVSFYHS S

NG DVEYPYFL QRQKTTAFDFFIAQFNSGRVIASQDLVS VSLT DPVEYLTKQL'rNISEVV GPTCT

RTFSGK GG DDTWALT AVYISAHIPDiMAFAPIRV

>gi_Ξ68928Ξ

MFGGALGESAKKHFERL RDRlffiRLGASRΪ^CLARGGSIiTOAPFT.NF^ DGTGIYSAIA RL YAGIVSSEFGEVRRESLSNGHISKRNREAL APTLTRVA S ITFHEYDDAQCAAHR NAYYSTOJNTFGSMRTSDAFQQ1-ASFIDRFSK IAAASF DVNILDR-OTAPKR.RITAPSYDKPHGTLE FQ KMIL4 HATYF TSVI4T-EDHAERAER1. RVIFDIPDFSDAATRHFRQRATVF VPRRHG T F VP IALA MSSFEGIRIGYTSHIRKAIEPVFΈEIGDRLRR FGTQC^ΠDHVKGETITFSFPSGSRSTVTFASSHNT SI RGQDFHLIFVDEA-ITIRPDAVQTIIGFL^QANCKIIFVSSTNSGKASTSFLYGLKGSADDLI.OTVTYICD EHMKHVT-TCTNATSCSCTVtNKPVFiramGAM^

VERLX-LYRPSTVRKQDILSRDLYVYVDPAF A.TRASGTGIAVIGRYGADYIIFGLEHFF RALTGESAD AIGECΪiAQCIAQIt.AIHCΕRFGTIRVAVEG SKQDSAVAIATRISID ASYVQSGVAPAPHDVCFYHS P AGSNVEYPFFL QRQKTAAFDFFIARF SGRVLASQDLVSTTISLSTDPVEYLTKQLTNLSEVVTGATGT RTFSGKKGGYDDTVVALVMAVYISAHASDATFAPIRGVEATCKGPTEA >gi_1869837

MFGQQJ^SDVQQYLERI^KQRQQKVGVDEASAG T GGDAIΛVPFLDFATATPKRHQTVVPGVGTLHDCC EHSP FSAVARRLLF S VPAQ RGRDFGGDHTAK EFLAPE VRAVARLRFRECAPEDAVPQRNAYYSV -4TCQALHRSEAFRQI_JVHFVRDFAQI-LKTSFRASSI^ HATYFl-AAVIΛGDHAEQVOTFI^RLVFEIPLFSDTAVRHFRQRAT^^ GIKIGYTAHIRKATEPVFDEIDACI.RG FGSSRVDHVKGETISFSFPDGSRSTIVFASSHN NGIRGQDF miLFVDEANFIRPDAVQTIMGFI-NQANCKIIFVSSTOTGKAS^

V TH ATACSCTIIl- P FITroG R AD FIJPDSFMQEIIιGGQ E GDD PV TKSAGERFLLYR

PSTTTNSGLi PELYVYVDPAFTAm^RASGTGIAVVGRYRDDFIIFAIjEHFFIiRA TGSAPADIARiVVH

SLAQVIJUiHPGAFRSVRVAVEGNSSQDSAVAIATΞVHTEιHRIl4ASAGANGPGPEL FYHCEPPGGAVLY PFFLL-πCQKTPAFEYFIϊOXFNSGGVMASQELVSVTVRLQTDPVEYL^

NGAADDLMVAVIMAIYLAAPTGI PPAFFPITRTS

>gi_59501

MFGQQ ASDVQQYLERI^ QRQ VGADEASAG TMGGDALRVPFLDFATATPKRHQTVVPGVGTLHDCC

EHSP FSAVARRLLFNS VPAQ KGRDFGGDHTAKLEFLAPELVRAVARLRFKECAPADVVPQR AYYSV r-IWFQA HRSEAFRQLVHFVRDFAQLLKTSFRASSLTETTGPPKKRAKVDVATHGRTYGT ELFQKMILM

HATYFLAAVIiGDHAEQWOTFLR VFEIPLFSDAAVRHFRQRATVFLVPRRHG T F VPLIALSliASFR

GIKIGYTAHIRKATEPVFEEIDACLRGWFGSARVDHVKGETISFSFPDGSRSTIVFASSHNTNGIRGQDF

NTj FVDEAWi IRPDAVQTIMGFI- QANCKIIFVSS

VVTHTNATACSCYILNKPVFITiDGAVRRTADLF ADSFMQEIIGGQARETGDDRPVIiTKAGERFLLYR PSTTTNSGLMAPD YVYVDPAFTA.4 RASGTGVAVVGRYRDDYIIFA-EHFFLRA TGSAPADIARCVVH

SLTQV]_AI■HPGAFRGWV EGNSSQDSAV IAT_-- HTE^l3^

YPFF L-JTCQ TPAFEIIFIKKFNSGGVMASQEIVSATV^

RNGASDDLMVAVIMAIYIAAQAGPPHTFAPITRVS

>gi_2605992 MFGKALSRETIQYFET RKEVQSRSGAiaraU-AEAQTGGEDDVKrAFT.l^AIPTPQRHQTVVPGVGT HDC

CETAQIFASVARRL FRS S RGGESKER DPSSVEAYVDPiσπQALKTISFVEYNDAEARSCRNAYYS

IMNTFDSLRSSDAFHQVANFVARFSRLVDTSFNGADLDGDGQQTSKRIKVDVPTYGKQRGT ELFQKMI

^πIATYFIAAVI GDHAD IGA KM FOTPEFSD TIRH RQR FIl PRRHG}^^WFL PLIAI- I^

KGIKIGYTAHIRKATEPVFDEIGARl-RQWFGNSPVDHV GENISFSFPDGSKSTIVFASSH TNGIRGQD FNIiFVDFJUreiRPEAVQTIIGFl-NQTNCKIIF^

RVKAHTNATSCSCYIIJNKPVFITI DGAMRNTAELF PDSFMQEI IGGGNISGAHRDEPVFTKTAQDRF Ii

YRPSTVANQDIMSmmYVYVDPAFTTNAMASGTGVAVVGRYRSiπϊIVFGLEHFFLSALTGSSAE IARCV

AQO-AKVFAIHSRPFOSVRIAVEGNSSQDAAVAIATNIQ EUW RQADVVHMPGTV FYHCTPPGSSVA

YPFFLLQKQKTGAFDHFIKAFNSGLVLASQELISOTVRLQ^ RNGASDDMLVALVMAVYMASLPPTTNAFSSLSTQ

?gi_330792

MFGRV GRETVQYFEAIΛREVQARRGAKNRAAEAQNGGEDDAKTAFlrø

CETAQIFASVARRL FRS SK QSGEARER DPASVEAYVDPKVRQALKTISFVEYSDDEARSCRNAYYS

I ffiWFD IJ SSDAFHQ SFV FS L DTSFNGADωGDGQQ S RA ^ PTYG QRGTLELFQ MI MHATYFIAAVILGDHADRIGAFLKMVFHTPEFSDATIRHFRQRAT F'LVPRRHGKTWFLVP IALALATF GIKIGYTAHIRKATEPVFDEIGARLRQWFGNSP\TOHv7KGENISFSFPDGSKSTIVFASSHNTNGIRGQD

FN LFVDEANFIRPEAVQΪT IGFLNQTNCKI IFVSSTlrøSKASTSF YTOKGAADD NVVTYICDEHrø

RVKAHTNATACSCTIl-OTPVFITmDGAMR.TrAELFIjP^

YRPS QDIMSSDLY YVDPAF NA^ASG G AVVGRYRSN VVFG!EHFFLSALTGSSAELIA CV AQCLAQVFAIH RPFDSVRVAVEGNSSQDAAVAIATNIQLEI-^W RRADVVPMPGAV FYHCTPHGSSVA

YPFFIi QKQ TGAFDHFIKAF SGSV ASQE VSOTVRLQTDPrø^

RNGASDDMLVALVMAVYLSS PPTSDAFSSIiPAQ

>gi_97131

IWGGAVGEQSARYFQRL RERQRRAAERGARPDGGGGARGEDDARVPFtJDFAVAAPKRHQTVVPGVGTLH GYCEIAPLFAATASRLUliTSMARAEAGTJsrrGTGEAΞVSREIΛGV SALRFAAHPPAEAAAHCNAYHS

AIiESJIRASGAFAQVAAFVARFSRLVGTSFSHLGGGDDADPPRAKRARVEPPSGQTRGA ELFQKMILMPA TYFVAATliGEHAERIGAF RVAFlWPDFSDAAVAHFRQRATVFLVPRRHGKTv^LVPLIA ALATFKGI KIGYTAHIRKATEPVFEEIVAPO-RQΪWiGGERVDlOT GEVISFSFPDGARSTIVFASSHNT GIRCSQDFNL Fl/DEAHFIRPEAVQTIVGFIMQASCKIIFVSSTNTGKASTSFLY.^

AHGGATACSCYVI_JKPVFITJroAAARITrAETFLPNSFMQEIIG43GEVARRAEPAAVFTRAAGEQFL YRP STAAARGPWPERLY YIDPAFTSNARASGSGIAVVGRHRGSWLVLGLEHFFLPALTGSSAAEIARCAVRC FAQmAVHRRRLDG FVAVEG SSQDSAVAIALGVRRELDSI_AASGAVPMPAETRFYHC3iPPGSAVAYPF FLLQKQ TAAFDI-FIP-DFNSGRVVASQDIASLTVRLQTDPVEYLFEQLQHLTESTAGPGGARAFSG RRG AADDLMVA VMAVFVGSLPPTDGAFCPLAPRPPAD >gi_58S9808 MS IMFGRTLGEESVRYFERLKRRRDERFGTLESPTPCSTRQGSLGNATQIPFLNFAIDVTRRHQAVIPG IGTLHHCCEYIPLFSATARRAMFGAF SSTGYNCTPMΠ/ P RYSVTSRALWSPELKKAVSSVQFYEYSPE EAAPHRNAYSGVIΩTOFRAFS SDSFCQLSTFTQRFSY ΕTSFESIEECGSΞGRAIA VDVPIYGRYKGT-. ELFQKMII_JMHΓΓHFISSVI,LGDHADRVDCFLRTVFNTPSVSDSVLEHF QKSTVFLVPRRHGKTWFLVPE IA VMATFRGIKVGYTAHIRKATEPVFEGIKSR EQWFGANYVDHVKGESITFSFTDGSYSTAVFASSHN TNGIRGQDF-JT- FVDEAHFIRPDAVQTIVGF NQTNCKI IFVSSTNTGKASTSFLY-TTRGSSDQLIJNVVT YVCDDHMPRVLAHSDVTACSCTYVIMPWITIYMGAMRR

T TARERFILYRPSTVANCAILSSVLYVYVDPAFTSTTITLASGTGVAIVGRYKSD IIFGLEHFF RALTG TSSSEIGRCVTQC GHILALHPLWF NVHVSIEGNSSQDSAVAISIAIAQQFAVLIEKGATVLSSAPV LFY HSIPPGCSVAYPFFLILQKQKTPAVDYFV RFNSGNIIASQELVSLTVKLGVDPVEY C QIJDNLTEVI G GMGRØ-DTKTYTG GTTGTMSDD MVALIMSVYIGSSCIPDSVFMPI

>gi_S708110

M GKESVEIV RYRDALRKRTMERGPDDVDGQEMSDSl^ITTASICDRrroSARDTMNSPASRFQFAIDVP

QRHQACIAPIGSFHNCC^ISPJiFSYMASEIIYENtiASYST YTDTDAALNDLQVSPKRQLFTGAAEDSIL

PAIiRQKLAN NFARFAPSDSLIHDKAFDGIMNGYRGFVKSDEFSQT-NfTFIYRFHTIiK^ RAK EKTTSEQRDGTIiELFQKMIIJlHA YFASSICTiGEGSTERSimYLSTVF-rrS FSENIIQHFRQRTT

VF VPRRHGKT FLVPLISLLVSSFEGIRIGYTAHl^KATEPVFIEIFTRLYKWFGAKQVEQVKGETITF

TFRNGNKSAIVFASSQNTNGIiRGQDFimjFVDEAOTIKPAALH^

LLY LKG TNSIi VVTYICDEH PEIQ RTDVTTCSC^rVV HKPVFVSlTO

GGRAGKYDSDRT VPVRA DQFLIYRPSTSSKPNISGLGKI TVYVDPAFTTNRSASGTGIALVTALRDS MvTiMGAEHFYLDALTGEAALEIAQCVY CIAYCCO-IHAGAFREIRIAVEGNSSQDSAAAIAGjaTE LDS RRRLGFS TFAHSRQPGTAMAHPFY I.NKQKSRAFDLFVSLFNSGRFMASQELVSNT VLS DPCEYLV

DQIRNITVTHGQGPDSFRTFSGKQGRVPDDMLVAAVMSTY ALEGSPTAGYHPIAPIGRRQRPA

>gi_1813970

MLRGDSAAKIQERYAELQKRKSHPTSCISTAFTIWATLC^KRYQMMHPELGLAHSαTE^ RDYNS PEESQRELLFHERLKSALDK TFRPCSEEQRASYQKLDALTE YRDPQFQQIOTiTMTDFKK LDG

GFSTAVEGDAKAIP-EPFQKlttLIHVIFFIAVT IPVLANRV QYLIHAFQIDFLSQTSIDIFKQKATVF

LVPRRHGKTvWIIPIISF -OMIGISIGYVAHQKHVSQFVLKEVEFRCRHTFARDYVΛ/ENKDNVISIDH

RGAKSTA FASCY-røTSIRGQOTHLI-.jVDEAHFIKKEAFOT^

RlαrøAPFDiIiN SYVCTEHLHSFTEkGDATACPCYRLH^ NKISQNTVLITDQSREEFDILRYSTl-N NAYDYFGKT YVYLDPAFTTNRKASGTGVAAVGAY^

G EHFF RDLSESSEVAIAECAAHMIISVLSLHPY DELRIAVEGNTNQAAAVRIAC IRQSVQSSTLIR

VLFYHTPDQiraiEQPFYIJ4GRDKALAVEQFISRFNSGYI-aSQELVSYTI SHDPIEYLLEQIQ-ir_JHRV

TLAEGTTARYSAKRQNRISDD I IAVIMATY CDDIHAIRFRVS

>gi_274S29S MLRSCDIDAIQKAYQS I IWKHEQDVKISSTFPNSAIFCQKRFI I TPΞLGFTHAYCRHV PLYLFCDRQR

HVKS IAICDP]-NC^VI-S3XLKFTAIIEKCWEVQYQKH E QTSFYRNP FLQIEKFIQDFQRWICGDFENT NKKERIKLEPFQKS ILIHI IFFISVTKLPT AIffiVIDY KYKFDIEFINESSVNI KQKASVFLVPRRHG KCTFMIPVICFI&KmEGISIGYVAHQKHVSHFVMKDVEFKCRRFFPQrø^

FASCΥlJTHSIRGQSFNIilVDESHFI KDAFSTILGFLPQSSTKIIFISSTNSGimSTSFLT LSN-^ MLTWSYVCEDHVHIII NDRGNATTCACYRI^PKFISINADVT 'ADLF^ LITEQGLIEFDLFRYSTISKQIIPFLGKELYIYIDPAYTINRRASGTGVAAIGTYGDQYIIYGMEHYFLE SLLSNSDAS IAECASHMI AVLE HPFFTELKI I IEGNSNQSSAVKIACILKQTISVIRYKHITFFHTLD QSQIAQPFYLLGREKRIAVEYFIS-TFNSGYIKASQELISFTIKITYDPIEYVIΞQIKNLHQININ^ NAK QTCSDD LIS I IMAIYMCHEGKQTSFKEI >gi 325496 MLRTCDITHIKNNYEAI IWKGERDCSTISTKYPNSAIFYKKRFIMLTPE GFAHSYNQQVTKP YTFCEKQ RHLJMR PLTI PS SH LQEMKFLPASDKSFESQYTEF ESFKILYREPLF QIDGFIKDFRKWIKGEF MSFGDTRKIQLEPFQKNILI^IFFIAVTKLPALAIWVINYLTHVFDIEFVNES RHGKT FIVPIISFIIKNIEGISIGYVAHQKHVSHFVM EVEFKOLRMFPEKTITCN^DNVITIDHQNIKS TALFASCYLOTHQSIRGQSFI&LIVDESHFI KDAFSTI GFLPQASTKILFISSTNSGIΠISTSF]^KR-SN SPFEMLSVVSYVCEDHAHMLI^RGNATACSCYRI_HKPKFISINAEVI TAMIF EGAFIHEIMGGATCLIV

INDVLITOQGQTEFEFFRYSTIN-an-IPF GKDLYVYI^PAYTGiraRASGTGIAAIGTY DQYIVYGriEH YF ESI-IΩ'SSDTAIAEαuiHMI SILDrHPFFTEV IIIEGNS-TQASAV rACII3SENITAN SIQVTFF HTPDQNQIAQPFYI.LGKEKKIiAVEFFISNFNSGNI ASQELISFTI ITYDPVEYAI^QIRNIHQISVim YITYSAKKQACSDDIiI IAI IMAIYVCSGNSSASFREI >gi_8S4039

MKLNNSPFEMLSWSYVCEDHAH flLIffiRGNATACSCYRLHKPKFISINAEV^

ATCNVINDVLITEQGQTEFEFFRYSTIIrørLIPFLGKDLYVYIΛPAYTGNRRASGTGIAAIGTYLDQYIV YGMEΞYFLESLMTSSDTAIAEC-AAHMILS ILDLHPFFTEVKI I IEGNSNQASAVKIACI IKENITANKS I QVTFFlCTPDQNQIAQPFYLLGIS iα-AVEFFIS FNSGNI .^QE ISFTIKITYDPVEYAIiEQIR IHQ ISVIrøYITYSAKKQACSDDLIIAIIMAIYVCSGNSSASFREI >gi_5733SS4

^π.RTCDITHIKro^E IIv>reGERNCS IS PNSAIFYKKRFrMLTPELGF HSYNQQ KP YTFCE Q RHLKLmKPLTILPSLTRKLQEMKFLPASDKSFESQYTEFLESFKILYREPLFLQIDGFIKDFRKWΪKGEF .TOFGDTRKIQI-EPFQKNILI-mFFIAVTKLPALANRVINYLTHVFDIEFVIrøST^^ RHGKT FIVPI ISF LKNIEGIS IGYVAHQKHVSHFVMKEVEFKCRRMFPEKTITCU3NVITIDHQNIKS TALFASCYNTHS IRGQSFNLLIVDESjHFIK.03AFSTILGFLPQASTKILFISSTNSGjraSTSFI-MKL.TOTS PFEMLSWSYVCEDHAHI^LNERGNATACSCYRLHKPKFISINAEVKKTANLF^^

NDVLITEQGQTEFEFFRYSTINK_aiPFLGKDLYVYLDPAYTGNRRASGTGIAAIGTYLDQYIVYGr«IEHY FLESLMTSSDTAIAECAAHMILS ILDLHPFFTEVKI I IEGNSNQASAVKIACI IKENITANKS IQVTFFH TPDQNQIAQPFYI.LGKEKKLAVEFFISNFNSGNIKASQELISFTIKITYDPVEYALEQIRNIHQISVNNY ITYSAKKQACSDDLI IAI IMAIYVCSGNSSASFREI >gi_499S048

MKI-IOTSPFEMLSVVSYVCEDHAHMLNERGNATACSCYRLHKPKFISINAEVKKTANLFLEGAFIHEIMGG ATOiVINDVLITEQGQTEFEFFRYSTINKNLIPFLGKDLYVYLDPAYTGNRRASGTGIAAIGTYLDQYIV ^' YGMEHYFLESLMTSSDTAIAECAAHMILS ILDLHPFFTEVKI I IEGNSNQASAVKIACI IKENITANKS I QVTFFHTPDQNQIAQPFYI DGKEKKLAVEFFISNFNSGNIKASQELISFTIKITYDPVEYALEQIRNIHQ ISVNNYITYSAKKQACSDDLI IAI IMAIYVCSGNSSASFREI

>gi_1136808 ^' r LSRHRERIlAANI4EET D GERWELSAPTF RHCP T R AHPFIGVVH INSYSS LET C RHHPA TPTSANPDVGTPRPSEDNVPAKPRIαLESLSTYLQMRCT/REDAHVSTADQLVEYQAGRKTHDSLHACSVYR ELQAFLVNLSSFIJNGCYVPGVH LEPFQQQLVMHTFFFLVSIKAPQKTHQLFGLFKQYFGLFETPNSVLQ TFKQKASVFLIPRRHGKT IVVAI ISMLLASVENINIGOTAHQKHVANSVFAEI IKTLCRWFPPKNLNIK KENGTIIYTRPGGRSSSIMCaTCFNKNSIRGQTFHLLYVDFJU^IKKDALPAILGFMLQKDAKLIFISSV

GAFDTEIMGEGAASSNATLYRVVGDAALTQFDMC^VDTTAQEVQKCLGKQLFVYIDPAYTITNTEASGTGV GAVVTSTQTPTRSLILGi EHFFLRDLTGAAAYEIASCACrraiKAIAVLHTTIERVNAAVEGNSSQDSGVA IATVLNEICPLPIHFLHYTDKSSALQWPIYMLGGEKSSAFΕTFIYALNSGTLSASQTVVSNTIKISFDPV TYLVEQVRAIKCVPI^t^GGQSYSAKQKHMSDDLLVAVVriAHFMATDDRHMYKPISPQ . ■ >gi_1718281

MLQKDAKLIFISSVNSSDRSTSFLLNLRNAQEKMLNVVSYVCADHREDFHLQDALVSCPCYRLHIPTYIT IDES IKTTTNLFMEGAFDTELMGEGAASSNATLYRVVGDAALTQFDMCRVDTTAQQVQKCLGKQLFVYID PAYTNNTEASGTGVGAVVTSTQTPTRSLILGMEHFFLRDLTGAAAYEIASCACTMIKAIAVLHPTIERVN AAVEGNSSQDSGVAIATVIiNEICPLPIHFLHYTDKSSALQ PIYMLGGEKSSAFETFIYALNSGTLSASQ TVVSNTIKISFDPVTYLVEQVRAIKCVPLRDGGQSYSAKQKHMSDDIJ.VAVVMAHFi^aTDDRHMYKPISP

Q >gi_224S515

MLQKDAKLIFISSVNSSDRSTSFI,INi NAQEKMLNVVSYV(-ADHREDFHLQDALVSCPσιrRLHIPTYIT IDESIKTTTNLFMEGAFDTEI-MGEGAASSNATLYRVVGDAALTQFDMCRVDTTAQQVQKCLGKQLFVYID PAYTNNTEASGTGVGAVVTSTQTPTRSLILGMEHFFLRDLTGAAAYEIASCACTMIKAIAVLHPTIERVN AAVEGNSSQDSGVAIATVLNEICPLPIHFLHYTDKSSALQWPIYMLGGEKSSAFETFIYALNSGTLSASQ TVVSNTIKISFDPVTYLVEQVRAIKCVPLRDGGQSYSAKQKHMSDDLLVAVVMAHFMATDDRHMYKPISP

Q

>gi_2246552

MIJ_SRH ERI- AN QETAKDAGER^ffiLSAPTFTRHCP TA -AHPFIGVVHRINSYSSV ETYCT HHP

TPTSANPDVGTPRPSEDNVPAKPRIjLESLSTYLQMRCVREDAHVSTADQLVEYQAARKTHDSLHACSVYR ELQAFLVNLSSFIiNGCYVPGVH LEPFQQQLVMHTFFFLVSIKAPQKTHQLFGLFKQYFGLFETPNSVLQ TFKQKASVFLIPRRHGKT IVVAIISi iLIJ^VENINIGYVAHQKHVANSVFAEIIKTLCRWFPPKNLNIK KENGTI I TRPGGRSSSLMCATCFNKNS IRGQTFNLLYVDEANFIKKDALPAILGEMLQKDAKLIFISS V NSSDRSTSFLϋ^NLRNAQEKMLNVVSYVO DHREDFHLQDALVSCPCYRLHIPTYITIDESIKTTT^ GAFDTEIilGEGAASSNATLYRVVGDAALTQFDMCRVDTTAQQVQKCLGKQLFVYIDPAYTNNTEASGTGV GAWTSTQTPTRSLILGMEHFFLRDLTGAAAYEIASCACTMIKAIAVLHPTIERVNAAVEGNSSQDSGVA IATVI.5ΕICPLPIHFLHYTDKSSALQWPIYMLGGEKSSAFETFIYALNSGTLSASQTVVSNTIKISFDPV TYLVEQVRAIKC^PLRDGGQSYSAKQKHMSDDIiVAVVI^AHFMATDDRHMYKPIS PQ >gi_4494933 MLQKDAKLIFISSSNSSDKSTSFIjLNLKDAHEKMLNVVNYVCPDHKDDFNLQDTVVACPCYRLHIPAYIT IDETVRSTTNLFXEGAFSTELMGDAATSAQSMHKIVSDSSLSQLDLCRVKSTSQDIQGAMKPCLHVYIDP AYTJ TDASGTGIGAVIAVNHKVIKCIl.LGVEHFFLRDLTGTAAYQIASI.S*^^

AVEGNSSQDAGVAIATVL-ffiICSVPLSFLHHVDKNTLIRSPIYMLGPEKAI AFESFIYAI_5rSGTFSASQT SHTIKLSIT3^]? AY IDQIKAIRCIPL:ro343HTYCAK^^ >gi_7330018 II QKDAKL FISSSNSSDKSTSFLLNLKDAHEK^lIΛNV YVCPDHxπ)DF-TLQDTV^

IDETVRSTTNLFLEGAFSTEIiMGDAATSAQSMHKIVSDSSLSQLDLCRVESTSQDIQGAMKPCLHVYIDP

AYTN1TTDASGTGIGAVIAVNHKVIKCILLGVEHFFLRDLTGTAAYQIASCAAALIRAIVTLHPQITHVNV

AVEGNSSQDAGVAIATVLNEICSVPLSFLHHADKNTLIRSPIYMLGPEKAKAFESFIYALNSGTFSASQT SH I SFDPVAYLIDQI-C IRCIP DGσHTY ^U Q TMSDDVL AA rAHYM T]roKF F S E

>gi_4019255

MIiIΛKAKKALMENLTEASSTQSETEWTVDTPTMITNIKKSERMAYSKIGVIPSINLYΞASLTSFCRLYRP I ALKQPLPQTGTLPvIΛPSEKPYISQKLSNYVKSLTLKHVϊrøDIEAEAEYYASVQTEKTFMECPIYLELRQ FIINLSSFLNGCYVKKSTHIEPFQLQLIl-HTFYFLISIKSPESTNKLFDIFKEYFGLGEi DSAMLQNFKQ I ASIFLIPRRHGKTWIVVAIIS4 LITSVENLHVGYVAHQKHVANSVFTEIINTLQKKrFPS-aTIDVKKENG TIIYKIPGKKPSTLMCaSCFNKNSIRGQTFNLLYIDEANFIKKDSLPAILGFHLQKDAKLIFISSVNSGD KATSFLFNLKNASE-ΦrLNIVNYICPDHKDDFSLQDSLISCPCYKLYIPTYITIDETIKNTTNLFLDGAFT TELMGDISVMSKNNIHKVIGETALMQFDLCRIDTTKPEITQCLNS IMYLYIDPAYTNNSEASGTGIGAI I ALi NNSSKCIIVGIEHYFLKDLTGTATYQIASCACΞLIRAALVLYPHIQAVHVAVEGNSSQDSAVAISTF LNECSPVKVNFMHYKDKTTAMQWPIYMLGSEKSQAFESFIYAINSGTISASQS I ISNTIKLTFDPISYLI EQIRAIRCΥPLRDGSHTYCAi ζRTVSDDVLVAVVMAHFFSTSNKHIFKQLNSI >gi_4019257

MLQKDAKLIFISSVNSGDKaTSFLFNLKNASEKMLNIV-^ICPDIIKDDFSLQDSLISCPCYKLYIPTYIT IDETIKOTTm.FLDGAFTTEl-MGDISWSia^

PAYTNNSEASGTGIGAIIALKNNSSKCIIVGIEHYFLKDLTGTATYQIASCACSLIRAALVLYPHIQAVH VAVEGNSSQDSAVAISTFLNECSPVKVNFMHYKDKTTAMQWPIYMLGSEKSQAFESFIYAINSGTISASQ S I ISNTIKLTFDPISYLIEQIRAIRC^PLRDGSHTYCAKKRTVSDDVLVAVVi^lTUffFSTSNKHIFKQLNS I

>gi_S 0355

MLLLKAKKAI IENLSEVSSTQAETD DMSTPTI ITNTSKSERTAYSKIGVI PSVNLYSSTLTSFCKLYHP LTI-^QTQPQTGTLRIJLPHEKPLILQDLS.TYVKLLTSQNVCHDTEANTEYNAAVQTQKTSMECPTYLELRQ FVILTTSSFLNGCYVKRSTHIEPFQLQLII_^HTFYFLISIKSPESTNRLFDIFKEYFGLREMDPDMLQIFKQ ' KASIFLIPRRHGKT IVVAIISMLLTSVENIHVGYVAHQKHVANSVFTEIINTLQKWFPSRYIDIKKENG T IYKSPDKKPSTLMCATCFNKNS IRGQTFN]-LYIDEANFIKKDSLPAILGFMLQKDAKLIFISSVNSGD

RATSFLFNLKNASEKMIINIV-TYICPDHKDDFSLQDSLISCPCYKLYIPTYITIDETIKNTTNLFLDGAFT TEI^GDMSGISKSNIHKVISE4AITQFDLCRADTTKPEITQCLNSTMYIYIDPAYTNNSEASGTGIGAIL TFKNNSSKCIIVGMEHYFLKDLTGTATYQIASCACSLIRASLVLYPHIQCVHVAVEGNSSQDSAVAISTL INECSPIKVYFIHYKDKTTTMQ PIYMLGAEKSIAFESFIYAINSGTISASQSIISNTIKLSFDPISYLI EQIRSIRCΪP]_RDGSHTYαUCKRTVSDDVLVAVVMAYFFATSNKHIFKPLNST >gi_695201 MLQI03AKIIFISSVNSSDQTTSFLYNLKNAKEKMLNVVNYVCPQHREDFSLQESVVSCPCYRLHIPTYIA IDENIKDTTNLFMEGAFTTELMGDGAAATTQTNMHKVVGEPALVQFDLCRVDTGSPEAQRGLNPTLFLYV DPAYTN-TOEASGTGMGAVVSMKNSDRCVVVGVEHFFLKELTGASSLQIASCAAALIRSLATLHPFVREAH VAIEGNSSQDSAVAIATIjLHERSPLPVKFLHHADKATGVQWPMYILGAEKARAFΕTFIYALNSNTLSCGQ AIVSNTIiaSFDPVAYLIEQIRAIKCnrPLKDGTVSYCAKHKGGSDDTLVAVVMA-KFATSDRHVFKNHMK

QI >gi_4928934

MLLSSFRNHLQKIrøl.OrSVQAQNIDWPVETPVLISKDSKTNRIMPLIGVI^^

TKQPKFTPDIGYVRDLKKHDQYFLPKLQHHLSTLCEAYNHVDRQAQVEFNASILTLKAFNANGVLNELKQ FLINLSCFIiNGCYVSKSTCIELFQKQLILHTFYFLISIKTPEETIΛKMFTFFKHYVGLFDIDDNriLQCFKQ KSTVFLIPRRHGKT IVVAIIS πjIiASVENVHIGYVAHQKHVANAVFTEIITTLYQrøPSI^ TIIYTKPGRKPSTIϋMCATCFNKNSIRGQTFNILYVDEAiWIKKEALPAILGFMLQKDAKIIFISSVNSAD KSTSFLFNLRNAKEKMI-NVVNYVCPEHKEDFNLQSTLTSCPCYRLHIPTYITIDESIKNTTNLFIJD TEIiMGDISTFPTSSMFKVVEEQALFHFDICRVDTTQIDTVKIIDNVLYVYVDPAYTSNSEASGTGIGAVV PLKTKVKTIILGIEHFYLKNLTGTASQQIAYCVTSMIKAILTLHPHINHVNVAVEGNSSQDSAVAISTFI NEYCPVPVFFAHOTERSSVFQ PIYILGSEKSQAFEKFICAIiNTGTLSASQTIVSNTIKISFDPVAYLME QIRAIRCLPLKDGSYTYCAKQKTMSDDTLVAVVMANYMAISEKHTFKELCKT >gi_1632798 MLYASQRGRLTE LRNALQQDSTTQGα-GAETPSIMYTG SD AHP VGTIHASN YCP r RAYCRH GPRPVFVASDESLPMFGASPALHTPVQVQMCLLPELRDTLQRLLPPPNLEDSEALTEFKTSVSSARAILE DPNFLEMREFVTSLASFLS43QYKHKPARLFJ^QKQVVLHSFYFLISIKSLEITDTMFDIFQSAFGLEEMT I1EKLHIFKQKASVFLIPRRHGKT IVVAIISLILS.ILS.TVQIGYVAHQKHVASAVFTEIIDTLTKSFDSK RVEVNKETSTITFRHSGKISSTVMCATCFNKNSIRGQTFHLLFVDEANFIKKEALPAILGFMLQKDAKII FISSVNSADQATSFLYKLKDAQERLLNVVSYVCQEHRQDFDMQDSMVSCPCFRLHIPSYITMDSNIRATT NLFLDGAFSTELMGDTSSLSQGSLSRTVRDDAINQIiELCRVDTLNPRVAGRLASSLYVYVDPAYTNNTSA SGTGIAAVTΞDRADPNRVIVLGLEHFFLKDLTGDAALQIATCTATALVSSIVTLHPHl^EEVKVAVEGNSSQ DSAVAIASI IGESCPLPCAFVHTKDKTSSLQ PMY]^TNEKSKAFERLIYAVOTASLSASQVTVSNTIQL SFOPVLYLISQIRAIKPIPLPJDGTYTYTGKQRNLSDDVLVALV1S1AHFLATTQKHTFKKVH >gi_2337991

MFYVKVMPALQKACEELQNQ SAKSGK PVPETPLVAVETRRSER PHPYLGLLPGVAAYSSTLEDYCHL YNPYIDALTRCΩLGQTHRRVATQPVLSDQLCQQLKKLFSCPRNTSVKAKIiEraAAVRTHQALDNSQVFLE LKTFVLNLSAFLNKRYSDRSSHIELFQKQLl4 HTFFFLVSIKAPELCEKFCNIFKLYFNIDTMDQATLDI FKQKASVFLIPRRHGKT IVVAIISILLASVQDLRIGYVAHQKHVANAVFTEVINTLHTFFPGKYMDVKK ENGTIIFGLPISrKKPSTLLCaTCFNKNSIRGQTFQLLFVDEANFIKKDALPTILGFMLQKDAKIIFISSSN SSDQSTSFLYlttKGASERi I-WVSYVCSNHIffiDFSMQDGLISCPCΥSl.HVPSYISIDEQIKTTTNLFLDG

VFΌTELMGDSSCGTLSTFQIISESALSQFELCRIDTASPQVQAHLNSTVHMYIDPAFTNNLDASGTGISV

IGRLGAKTKVILGCEHFFLQKLTGTAALQIASCATSLLRSWIIHPMIKCAQITIEGNSSQDSAVAIANF IDECAPIPVTFYHQSDKTKGVLCPLYLLGQEKAVAFESFIYAM. LGLCKASQLIVSHTIKLSFDPVTYLL

EQVRAIKCQSIJRDGSHTYHAKQKNLSDDLLVSVVMSLYLSSANTLPFKPLHIERFF

>gi_2317977

ICLQKDAKIFFISSVNSGEKTTSFLYNLKDANEKMVNVVSYVCSEHMEDFNKQSAITACPCYRLYVPEFIT

INDNIKCTTNLL-JEGSFATELMG^MQSHTEVSGNSMIHESSLTRJ-DFYRODTAGQGAPTTENTLFVYIDP AYGNNVHASGTGIVAMSHCKHTKKCI ILGLEHFFLNNLTGTAAHNIASCATALLEGILFQHPWIQEIRCI IEGNSNQDSAVAIATFISHNIKLPTLFASYRDKTGMQ PIYMLSGDKTIJAFQNFISSI.^QGLLCASQTVV SlSroVLLSSDPISYLIEQIKNTKCIYHKNKTITFQSKTHTMSDDVLIACVMTCYVMTTNKISYISFSIK >gi_6625593 MFIASKKSYFEAVYRSTVSSHSEEFWKSDDPVYFTQYKKQCNRLPNAYLGTLHSASKYSEIJFRHYVATFS NS PLDFPQSVFNERNPCEYSVPYIiDSALQCSAKTLVGCSVSTTERNEYEVCKEATRCFKDAMSHKVLKVF LSNLSWFLKGHYKSKQAFLEPFQKQLILHSFMFVAS IKCPETTTKLFDΞFKFLLDMLYFDNTDLLTFLQK S PAFLI PRRHGKT I TAI I Si LLTSVDDLHIGYVAHQKHVSLAVFLEISNILLAWFPRKNIDIKKENGV ILYSHPGKKSSTLMCATCFNKNSIRGQTFNIiFVDEANFIKKEALPAILGFMLQKDAKIFFISSVNSGEK TTSFLYNLKDAtffiKMVNVVSYVCSEHMEDFNKQSAITACPCYRLYVPEFITINDNIKCTTNLLLEGSFAT ELMGNMQSHTEVSGNSMIHESSLTl^FYRCDTAG^GAPTTENTLFVYIDPAYGNNVHASGTGIVAMSHC KHTKKCI ILGLEHFFω«π^TGTAAHNIAS<-aTALLEGILFQHPWIQEIRCIIEGNSNQDSAVAIATFISH NIKLPTLFASYRDKTGMQWPIYMLSGDKTLAFQNFISSIjNQG]_LaVSQTVVSNTVLLSSDPISYLIEQIK NTKCIY-ΠOTKTITFQSKTHTMSDDVLIACVMTCYVMTTNKISYISFS IK 1 10 20 30 40 50 GO 70 80 90 100 110 120 130

1 + + + + 4 + + j + »-+ + + + 1 gi_10180719 HFGGLLGEETkRHFERLH TKIIDR GflSHRNERSIRDG----D4 VDflPF~LHFniPVPRRHQTVMPRIGILHHCCDSLGIYSHITTRHLYSSIflCSEFDELRRD S¥PRCΫP gi_7G73189 MFGGLLGEETKRHFERLHKTKHDRLGRSHRNERSIRDG DHVD8PF~LHFRIPVPRRHQTVHPflIGILHHCCDSLGIYSflITTRHLYSSIflCSEFDELRRD SYPRCYP gi_5GB9285 HFGGHLGESRKKHFERLLRDRHERLGRSRKHECLRRGG SLVDRPF— LHFRISVPRRHQTVHPRVGTLHDCCDGTGIYSRIRTRLLYRGIVSSEFGEVRRE SLSNGHI gi_1869837 HFGQQLRSDV QYLERLEKQRQQ VGV-DERSRGLTLG GDRLRVPF— LDFRTRTPKRHQTVVPGVGTLHDCCEHSPLFSRVRRRLLFNSLVPflQLRGROFG GD H gi_59501 HFGQQLRSDVQQYLERLEKQRQLKVGR-DERΞRGLTHG GDRLRVPF--LOFRTRTPKRHQTVWGVGTLHDCCEHSPLFSRVRRRLLFHSLVPRQLKGRDFG GD H

CO gi-.2G05992 HFGKRLSRETIQYFETLRKEVQSRSGR-KHRRRERQTG— -GEDDVKTRF— LHFRIPTPQRHQTVVPGVGTLHDCCETRQIFRSVRRRLLFRSLSKHRGGESKER LD P c gi_330792 HFGRVLGRETVQYFERLRREVQHRRGR-KHRRREHQHG— GEDDR TRF— LHFRIPTPQRHQTVVPGVGTLHDCCETRQIFRSVRRRLLFRSLSKMQSGERRER LD P

CD gi_971317 HFGGRVGEQSRRYFQRLLRERQRRRRE-RGRRPDGGGGRRGEDDRRVPF~LDFRVRRP RHQTVVPGVGTLHGYCELRPLFRRTflSRLLLTSHRRREflG LH T O gi_5869808 HSLIHFGRTLGEESVRYFERLKRRRDERFGTLESPTPCSTRQGSLGHRTQIPF— LHFRIDVTRRHQRVIPGIGTLHHCCEYIPLFSRTRRRRHFGRFLSSTGYHCTPH VVLKP R gi.,5708110 HLGKESVEIV RYRDRLRKRTHERGPDDVDGQEHSDSHFITTRSICDRHDSflRDTHHSPRSRFQFRIDVPQRHQRCIRPIGSFHHCCRISRRFSYHflSEIIYEHLRSYSTKYTDTDRflLHDLQVSPKRQL gi_1813970 MLRGDSRR IQERYRELQ RKSHPTSCIST-flFTHVRTLCR RYQMMHPELGLRHSCHERFLPLMRFCGRHRDYHSPEESQREL gi_2746296 MLRSCDIDRIQ RYQSIIHkHEQDVK-ISS-TFPHSRIFCQKRFIILTPELGFTHRYCRHV PLYLFCDRQRHV SK--I m gi_325496 MLRTCDITHIKHHYERIIHKGERDCSπST^KYPHSRIFYK RFIHLTPELGFRHSYHQQVKPLYTFCE QRHL KHRKPL gi_57335G4

CO HLRTCDITHIKHHYERIIHKGERHCSTIST-KYPHSRIFYKKRFIHLTPELGFRHSYHQQVKPLYTFCEKQRHL KHRKPL

I gi L13G808 HLLSRHRERLRRHLEETRKD--RGEr-RHEL-SRPTFTRHCPKTRRMRHPFIGVVHRIHSYSSVLETYCTRHHP RTPTSRHPDV GTPRPSE m gi_224G552 HLLSRHRERLRRHLQCTRKD— RGE-RHEL-SRPTFTRHCPKTRRHRHPFIGVVHRIHSYSSVLETYCTRHHP RTPTSRHPDV GTPRPSE m ^'gi-4019255 MLLLKRKKRLMEHLTERSST^-QSETEHTV-DTPTHITHIKKSERMRYSKIGVIPSIHLYSRSLTSFCRLYRP LRLKQPLPQT GTLRLLP gi_G0355 HLLLKRKKRIIEHLSEVSSt-.-QflETDMDH-STPTIITHTSKSERTRYSKIGVIPSVHLYSSTLTSFCKLYHP LTLHQTQPQT GTLRLLP gi_4928934 MLLSSFRHHLQKHYEKYSVα—RQHIDMPV-ETPVLISKDSKTHRLRHPLlGVISRIHLYSPTLKYYCDEYST TKQPKFTPDI GYVRDLK c gi...2337991 MFYVKVHPRLQKflCEELQHQHSRKSGKHPVPETPLVRVETRRSERHPHPYLGLLPGVnRYSSTLEDYCHLYHP YIDHLTRCDL GQTHRRV gi_lG32798 MLYRSQRGRLTEHLRHRLQQDSTTQGCLGR-ETPSIMYTGRKSDRMRHPLVGTIHflSHLYCPHLRRYCRHYGPRPVFVRSDESLPHF GRSPRLH m gi_6B25593 MFIRSKKSYFERVYRSTVSS— HSEEFHKSDDPVYFTQYKKQCHRLPHRYLGTLHSflSKYSEHFRHYVRTFSH SPLDFPQSVF HERHPCE r gi_1718281 gi_2246515 gi_4494933 gi_733001B gi_4019257 gi_G95201 gi_2317977 gi_854039 gi_4996048

Consensus

TABLE 2

131 140 150 160 170 180 .190 200 _f210 220 230 240 250 260

[ ₊_ ₊ + :+ + + + j + + + + + -. I gi_10180719 RITHflQRFLSPllMi RVRHSIIFQEYDEMECRRHRHflYYSTMHSFISMRTSDRFKgLTVFISRFSKLLIflSFROVHKLDDHTVK— KRRRIDRPSYDKLHGTLELFQKHILMHRTYFVTSVLLGD-HRERfl gi_7G73189 RITHOQRFLSPH«MRVflHSIIFQEYDEHECflRHRHflYYST«HSFIStlRTSDflFKqLTVFISRFSKLLIRSFRDVHKLDDHTVK~KRRRIDflPSYDKLHGTLELFαKHIFDRCHLFCHFCFTMR-SRRflS gi_5G89285 SKRHRERLLRPTLTRVRHSITFHEYDDRQCRRHRHRYYSTMHTFGSHRTSDRFQQLflSFIDRFSKLLRRSFKDVHI^DRHHRP— RRRITRPSYDKPHGTLELFQKHILHHRTYFLTSVLLED-HRERfl gi_18G9837 — TRKLEFLRPELVRflVRRLRFRECflPEDflVPQRHRYYSVLHTFQRLHRSERFRQLVHFVRDFRQLLKTSFRRSSLRETTGPP-KKRflKVDVflTHGQTYGTLELFQKHILMHflTYFLflRVLLGD-HREQV gi_59501 — TRKLEFLRPELVRRVRRLRFKECflPRDVVPQRHRYYSVLHTFQRLHRSERFRQLVHFVRDFRQLLKTSFRRSSLTETTGPP-KKRRKVDVRTHGRTYGTLELFQKHILMHRTYFLflRVLLGD-HREQV

CO gi_2G05992 — SSVERYVDPKVKQRLKTISFVEYHDRERRSCRHRYYSIHHTFDSLRSSDRFHQVRHFVRRFSRLVDTSFHGflDLDGDGQQT-SKRIKVDVPTYG QRGTLELFQKHILHHRTYFIRRVILGD-HRDRI c gi_330792 — RSVERYVDPKVRQRLKTISFVEYSDDERRSCRHRYYSIMHTFDRLRSSDflFHQVRSFVRRFSRLVDTSFHGRDLDGDGQQR-SKRRRVDVPTYGKQRGTLELFQKHILMHRTYFinRVILGD-HRDRI

03 gl_971317 — GTGEflHVSRELflGVLSflLRFflRHPPflERRflHCHRYHSVMRflLESHRRSGflFRQVRRFVRRFSRLVGTSFSHLGGGDDRDPPRflKRRRVEPPS-GqTRGRLELFQKHILttPflTYFVRflTLLGE-HflERI CO gl_58G9808 — YSVHRHVSPELKKRVSSVαFYEYSPEEflRPHRHRYSGVHHTFRRFSLSDSFCQLSTFTQRFSYLVETSFESIEECGSHG KRRKVDVPIYGRYKGTLELFQKHILMHTTHFISSVLLGD-HRDRV gl_5708110 FTGRREDSILPRLRQKLRHLHFRRFRPSDSLIHDKflFDGIMHGYRGFVKSDEFSqLHHFIYRFHTLLKKSFSGQflSHDY KRRKLEKTTSEqRDGTLELFQKHILHHRTYFRSSICLGEGSTERS gi_1813970 LFHERLKSRLDKLTFRPCSEEQ-R RSYqK-LDRLTELYRDPqFQqiHHFHTDFKKHLDGGFSTRVEGD RKRIRLEPFQKHLLIHVIFFIRVTKIPV-LRHRV gi_274G29G RICDPLHCRLSKLKFTRIIEKHTE VqγqKHLELQTSFYRHPHFLqiEKFiqDFqRHICGDFENT--HK KERIKLEPFqKSILIHIIFFISVTKLPT-LRHHV m gi_32549G TILPSLSHKLQEHKFLPRSDKSFE SqΫTEFLESFKILYREPLFLqiOGFIKDFRKHIKGEFHDF— GD - TRKIQLEPFQKNILIHVIFFIRVTKLPfl-LflHRV

CO gi_57335G4 -r-TILPSLTRKLqEHKFLPRSDKSFE SqYTEFLESFKILYREPLFLqiDGFIKDFRK IKGEFHDF— GD- TRKiqLEPFDKHILIHVIFFIRVTKLPR-LRHRV

I gi_113680B DHVPRKPRLLESLSTYLQHRCVREDRHVSTRDqLVEYQRGRKTHDSLHRCSVYRELqRFLVHLSSFLHGCYVP = GVH LEPFQQqLVMHTFFFLVSIKRPQ-KTHqL mm gi_224G552 DHVPRKPRLLESLSTYLqHRCVREDRHVSTRDqLVEYqRRRKTHDSLHRCSVYRELqRFLVHLSSFLHGCYVP GVHHLEPFQqqLVHHTFFFLVSIKRPQ-KTHqL

H gi_4019255 SE KPYISQKLSHYVKSLTLKHV HDIERE—REYYRSVqTEKTFttECPI.YLELRQFIIHLSSFLHGCYVK KSTHIEPFQLDLILHTFYFLISIKSPE-STHKL gi_G0355 HE KPLILQDLSHYVKLLTSqHVCHDTERH— TEYHRRVqTdKTSHECPTYLELRQFVIHLSSFLHGCYVK RSTHIEPFqLQLILHTFYFLISIKSPE-STHRL

7) gi_4928934 KH DqYFLPKLqHHLSTLCERYHHVDRQRQ~VEFHRSILTLKflFNRHGVLHELKQFLINLSCFLNGCYVS KSTCIELFQKqLILHTFYFLISIKTPE-ETHKH

C gi_2337991 RT qPVLSDqLGqQLKKLFSCPRHTSVKRK— LEFERRVRTHQRLDHSqVFLELKTFVLHLSRFLHKRYSD RSSHIELFQKqLIHHTFFFLVSIKHPE-LCEKF m gi_lG32798 TPVQVQMCLLPELRDTLqRLLPPPHLEDSERL— TEFKtSVSSRRRILEDPHFLEHREFVTSLRSFLSGqYKH ^' KPRRLERFqKqVVLHSFYFLISIKSLE-ITDTH r gi_GG25593 YSV— rPYLDSRLqCSRKTLVGCSVSTTER HEYEVCKERTRCFKDRHSHKVLKVFLSHLSMFLKGHYKS KqRFLEPFDKQLILHSFHFVRSIKCPE-TTTKL gJL_1718281 gi.,2246515 gi_--4494933 gi_7330018 gi_4019257 gi_G95201 gi_2317977 gi_854039 gi_499G04Q

TABLE 2 CONTINUED

23

uicoi r-.HrJ ur-ro oxx'^rx uinin rHTOroHinroxr-TH -xx

651 GGO G70 880 G90 700 710 720 730 740 750 7G0 770 780 I — +- — +_ i — +-. +- +_ — +_. +- +_ +_. — -_+- gi_10180713 flP—TPHHVSFYHSKSHGTDVEYPYFLLQRQKTTHFDFFIBαFHSGRVLfiSQOLVSTTVSLrrOPVEYLTKQLTHISEVVTG PTCTRTFSGKKGG— ^HDDfVVflLTHHVYISflH-IPDHfiFHPIRV gi_7G73183 flP~TPHHVSFYHS SHGTDVEYPYFLLqRQ TTHFDFFIflQFHSGRVLflSqDLVSTTVSLTTDPVEYLTKQLTNISEVVTG PTCTRTFSG KGG---HDOtVVRLTHHVYISflH-IPDHflFflPIRV gi_5689285 flP—flPHDVCFYHSKPnGSHVEYPFFLLQRQKTHflFDFFIHRFHSGRVLflSqDLVSTTISLSTDPVEYLT QLTHLSEVVTG RTGTRTFSG KGG---YDDfVVRLYHflVYISflH-flSDRTFRPIRG gi_.18G9B37 flH-GPGPELLFYHCEPPGGHVLYPFFLLH QKTPflFEYFIKKFHSGGVHHSQELVSVTVRLCTDPVEYLSEQLNHLIETVSP HTDVRHYSGKRNGfi-^RODLHVfiyiHRIYLflflPTGIPPflFFPΪTR gi_53501 RDRGSGPELLFYHCEPPGSflVLYPFFLLHKQKTPflFEHFIKKFHSGGVHHSqEiVSRTVRLqTDPVEYLLEQLHHLTETVSP-^-HTDVRTYSGKRHGR- SDι.LHVRVIHflIYLflflQflGPPHTFnpiTR gi_2605992 VH— HPGTVLFYHCTPPGSSVHYPFFLLq QKTGflFDHFI RFHSGLVLRSqELISHTVRLQTDPVEYLLtQHKHLTEVITG TSETRVπGKRHGH-^SDDrlLVflLVHflVYHRSLPPTTHRFSSLST gi_330792 VP~HPGRVLFYHCTPHGSSVRYPFFLLqKQKTGHFDHFIKRFHSGSVLflSqELVSHTVRLβTDPVEYLLtQHKHLfEVVTG-'~TSETRVFTGKRHGR— SDDHLVflLVHRVYLSSLPPTSDRFSSLPR gi_97I317 VP--HPflETRFYHCRPPGSnVRYPFFLLQKQKTRRFDHFIRLFHSGRVVflSQDLRSLTVRLαTDPVEYLFEQLQHLTESTnG PGGRRRFSGKRRGR— RDDLHVflLVtiWFVGSLPPTDGRFCPLflP gi_58G9808 LS--SRPVLLFYHSIPPGC5VRYPFFLLQKQKTPRVDYFV RFHSGHIIflSQELVSLTVI LGVDPVEYLC QLDNLTEVIKGGHGHLDTKTYTGI GTTGTHSDDLHVRLIHSVYIGSSCIPDSVFHPI

CO gi_5708110 LGF5LTFRHSRQPGTHHnHPFYLLHKqKSRflFDLFVSLFH GRFHRSqELVSHTLVLSKDPCEYLVDQj-KNIT--VTHGqGPDSFRTFSGKQGRV--PDDHLVHRVHSTYLRLEGSPTflGrfHPIflP c gi_1813970 __ RVLFYHTPDQHHIEQ-PFYLHGRD RLRVEQFISRFHSGYIKRSQELVSYTIKLSHDPIEYLLEQIQHLHRVTLR EGTTRRYSRKRQHR-iSDDLIIRVIHflTYLCDDIHRIRFRVS

CO gi_27<1G296 HITFFHTLDQSQIflQ-PFYLLGREKRLfiVEYFISHFHSaYIKRSQELlSFTI πYDPIEYVIEQIKNLHQIHIH EHVT~YHRKKQ-T-CSDDLLISIIHflIYHCHEGKqTSFKEI CO gi_32549B QVTFFHTPDQHQIflq-PFYLLGKEK LHVEFFISHFHSGHIKRSqELlSFTI ITYDPVEYRLEQIRNIHQISVH NYH--YSB KQ-H-CSDDLIIRIIHRIΥVCSGNSSRSFREI gi_57335G4 QVTFFHTPnqHqiflQ-PFYLLGKEK LflVEFFISHFHSGHI RSqELlSFTI ITYDPVEYRLEqiRHIHQISVH NYrT~YSR Kq-R-CSDDLIIRIIMflIYVCSGHSSRSFREI gi_113G808 PIHFLHYTDKSSRLQMPIYHLGGE SSRFETFIYnLHSGTLSflSOTVVSHTIKISFDPVTYLVEQVRRI CVPLR— DGGQS-YSflKQK-H-HSDDLLVflVVHflHFHRTDDRHHYKPISPQ gi_224G552 PIHFLHYTDKSSRLQMPIYHLG 5EKSSnFETFIYflLHSGTLSflSqτVVSHTIKIBFDPVTYLVEQVRRIKCVPLR-^-DGGqS-YSRKqk:-H-l1SDDLLVflVVHflHFHRTIjDRHHYKPISPQ m gi_4019255 KVNFHHYKDKTTRHQWIYHLGSE SQRFESFIYRIHSGTISRSQSlISHTIKLTFDPISYLIEQIRRIRCYPLR-^-DGSHT-YCRK R-T-VSDDVLVflVVHHHFFSTSHKHIF qLHSI co gi_G0355 KVYFIllYKDKTTTHQ PIYHLGREKSIflFESFIYfllHSGTISflSqSlISHTIKLSFDPISYLIEqiRSIRCYPLR— -DGSHT-YCflKKR-T-VSDDVLVRVVHRYFFRTSHKHIFKPLHST gi_492B934 PVFFflHCNERSSVFQHPIYILGSEKSQflFEKFICflUITGTLSflSQTlVSHTIKISFDPVRYLHEQIRRIRCLPLK— DGSYT-YCR QK-T-HSDDTLVRVVHflNYHHISEKHTFKELCKT m gi_2337331 pVTFYHqSDKTKGVLCPLYLLGqEKRVRFESFIYflHHLGLCKflSqLIVSHTIKLSFDPVTYLLEQVRRIKCqSLR— DGSHT-YHRKQ -H-LSDDLLVSVVHSLYLSSRHTLPFKPLHIER 4 m gi_lG32798 PCRFVHTKDKTSSLQHPHYLLTHKS flFERLIYflVHTRSLSRSqVTVSHTIQLSFDPVLYLISqiRRI PIPLR---DGTYT-YTGKqR-H-LSDDVLVRLVHflHFLflTtqKHTFKKVH gi_GG25593 -PTLFHSYRDKT-GHqMPIYHLSGDKTLRFQHFISSLHQGLLCRSqTVVSJJTVLLSSDPISYLIEqiKHTKCIYH HKTIT-FQSKTH-T-MSDDVLIflCyHTCYVHTTH ISYISFSIK gi_1718281 -PIHFLHYTD SSflLqMPIYHLGGEKSSRFETFIYflLHSGTLSRSqTVVSHTIKISFDPVTYLVEqVRfllKCVPLR DGGOSYSRKQ H~HSDDLLVRVVHHHFHRTDDRHHYKPISPQ c gi_2246515 -PIHFLHYTDKSSRLQHPIYHLGGEKSSflFETFIYRLHSGTLSRSQTVVSHTIKISFDPVTYLVEQVRRIKCVPLR— DGGQSYSRKQKH— HSDDLLVflVVHflHFHRTDDRHHYKPISPQ gi_<1494933 -PLSFLHHVDKHTLIRSPIYHLGPE RKRFESFIYRLHSGTFSflSQTVVSHTI LSFDPVRYLIDQIKRIRCIPLK-^ — DGGHTYCH QKI HSDDVLVRRVHRHYHRTHD FVF SLE m gl_7330018 -PLSFLHHRDKHTl-IRSPIYHLGPE fiKRFESFIYflLHSGTFSRSQTVySHTI LSFDPVRYl-IBtilKniRCIPLK- -DGGHTYCflKqKT~HSDDVLVRflVHRHYHBTHD FVF SLE ro gi_4019257 -KVHFHHYKD TTRHQMPIYMLGSE SQRFESFIYRIHSGTISflSQStlSHTIKLTFDPISYLIEQIRRIRCYPLR -OGSHTYCR KRT—VSDDVLVRWHRHFFSTSH HIFKqLNSI gi_G95201 -PVKFLHHRDKflTGVQ PHYILGflEKflRflFETFIYflLHSHTLSCGqRIVSHTIKLSFDPVRYLIEQIRRI CYPLK- -DGTVSYCR HKG~GSDDTLVRVVHRHYFRTSDRHVFKHHHKQI gi_2317977 -PTLFRSYRDK-TGHQ PIYHLSGD TLnFQNπSSLHQGLLCHSqTVVSHTVLLSSDPISYLIEQI H^KCIYHK N TITFqSKTHT—HSDDVLIHCVHTCYVHTtHKISYISFSlK gi_854039 --αVTFFHTPDQHqiflQ-PFYLLa<EK LflVEFFISHFHSGlΗ flSqELISFTIKITYDPVEYflLEQIRHIHqiSV HHYITYSflKKqfi~CSDDLIIflIIHflIYVCSGHSSRSFREI gi_4996048 --αVTFFHTPDQUqiflα-PFYLLGKEK LflVEFFISHFHSGHIKRSqELISFTI πYDPVEYRLEqiRHIHqiSV NHYITYSRK qR— CSDDLIIRIIHRIYVCSGHSSRSFREI

Consensus .-_P„F-h„ .l q-PiYΦLg. »;„fifit.F aa.Hsg-- .RSQ-v !SnT ! lsfDPhYl, „Q! rai.c„l tK.aK SDD.l!R Ha.2„t k

TABLE 2 CONTINUED

25

Table 3. Degenerate primers generated by CODEHOP

Block x7263xbliD

T L Y V Y I D P oligo : 5 ' -AACCTGTACGTGtayntngaycc-3 ' degen=64 temp=33.4 Extend clamp

T L Y V Y I D P A oligo : 5 ' -AACCTGTACGTGTACntngayccngc-3 ' degen=128 temp=36.0 Extend clamp

T L Y V^' Y I D P A Y oligo:5'-AACCTGTACGTGTACATngayccngcnt-3' degen=128 temp=42.5 Extend clamp

Complement of Block x7263xbliD

Y I- D P A Y T N N T - ^' atrnanctrggGCGGATGTGGTTGTXGT oligo : 5 ' -TGTTGTTGGTGTAGGCGggrtcnanrta-3 ^; degen=64 temp=62.9

D P A Y T N N T R A anctrggncgnaTGTGGTTGTTGTGGGTCCG ligo : 5 ' -GCCTGGGTGTTGTTGGTGTangcnggrtcna-3 ' degen=128 temp=61.8

D P A Y T N T R A ctrggncgnawGTGGTTGTTGTGGGTCCG oligo :5 ' -GCCTGGGTGTTGTTGGTGwangcnggrtc-3 ' degen=S4 temp=δl.O

Block x7263xbliE

C I I F G M E H F F oligo : 5 ' -TGGATCATCTTCGGCATngarcaytwyt-3 ' degen=64 temp=55.7 Extend clamp

I .F G M E H F - F^' L oligo : 5 ' -CATCTTCGGCATGGAGcaytwyt yyt-3 ' degen=S . temp=62.0

Complement of Block x7263xbliE

E H F F L R' D L T G ctygtrawrawGGACTTCCTGGACTGCCC ^' oligo : 5 ' -CCCGTCAGGTCCTTCAGGwarwartgytc-3 ' degen=32 temp=61.7 ^{■ ■}

H F F L R D L T G tygtrawrawrrACTTCCTGGACTGCCCG oligo : 5 ' -GCCCGTCAGGTCCTTCArrwar artgyt-3 ' degen=128 temp=60.8

H F F L R D L T G - gtrawrawrraCTTCCTGGACTGCCCG oligo : 5 ' -GCCCGTCAGGTCCTTCarrwarwartg-3 ' degen=64 temp=60.8

Block x7263xbliF

E V H I A V- E G N oligo : 5 ' -GGACGTGCACGTCGCCrtngarggnaa-3 ' degen=64 temp=S3.8-

Complement of Block x7263xbliF

E G N .S S Q D .S anctyccnttrwGGTTGGTCCTGAGGCGG oligo : 5 ' -GGCGGAGTCCTGGTTGGwrttnccytcna-3 ' degen=128 temp=62.7

E G N S S Q D S A V ctyccnttrwsGTTGGTCCTGAGGCGGC oligo : 5 ' -CGGCGGAGTCCTGGTTGswrttnccy-tc-3 ' degen=64 temp=63.9 . . ...

Claims

1. A method of designing a panel of degenerate primer pairs for screening for new members of multiple known virus families in a biological sample, wherein, each primer pair in the panel binds a sequence that is conserved across members of a said virus family and selectively directs amplification of sequence of said family by PCR, which method comprises

(b) comparing the sequences to identify conserved regions,

(c) designing a first primer pair using a computer based method, wherein each primer in the pair binds a nucleotide sequence that encodes a conserved region identified in (b) and wherein the primer pair is designed to amplify by PCR the nucleotide sequence between the nucleotide. sequences that encode conserved regions in members of the first virus family, and , .

(d) repeating steps (a) to (c) for each virus family.

2. A method of designing a panel of degenerate primer pairs for screening for new members of multiple known virus families in a biological sample, wherein each primer pair in the panel binds a sequence that is conserved across members of a said virus family and selectively directs amplification of sequence of said family by PCR, which method comprises

(a) providing a plurality of nucleotide sequences from members of a first virus family,

(b) comparing the sequences to identify conserved regions, (c) desigmng a first primer pair using a computer based method, wherein each primer in the pair binds a conserved region identified in (b) and wherein the primer pair is designed to amplify by PCR the nucleotide sequence between the conserved regions in members of the first virus family, and

(d) repeating steps (a) to (c) for each virus family.

3. A method according to claim 1 or 2 which further comprises synthesising one or more of the primer pairs and deteπn ing optimal conditions for using the primer pairs in PCR.

4. A method according to iany one of the preceding claims which comprises testing the ability of one or more of the primer p«airs to amplify a nucleotide sequence that encodes an amino acid as defined in claim 1(a) or a nucleotide sequence as defined in claim 2(a).

5. A method according to claim 3 or 4 which comprises testing the primer pair(s)_. in a range of buffer conditions to determine the optimal buffer conditions for PCR.

6. A method according to any one of claims 3 to 5 which comprises testing the primer pair(s) at a range of different temperatures^' to determine the optimal temperature for PCR.

7. A method according to any one of the preceding claims which comprises identifying one or more groups of primer pairs wherein the primer pairs in each group have similar optimal conditions of use in PCR such that they can be used ^■ optimally in the same reaction vessel.

8. A method according to claim 7 wherein each primer pair in a group generates^' a PCR product of a different size to the other primer pair(s) in the group.

- 9. A method according to claim 7 or 8 wherein each primer pair in a group carries a different label from the other primer pair(s) in the group.

10. A method according to claim 9 wherein each primer pair in a group carries a 5 differently-coloured flourescent label.

11. A method according to any one of the preceding claims wherein the biological sample is a single-source sample from a single individual or is a pooled sample from more, than one individual of the same species.

10

12. A method according- to claim 11 wherein the biological sample is a human sample.

13. A method according to any one of the preceding cl<aims wherein at least 50% of •15 the primer pairs bind a sequence that is conserved across all of the genuses and/or . subfamilies.

.

14. A panel of primers designed according to any one of the preceding claims.