DE60005100T2

DE60005100T2 - Selektion von zielregionen für zink-finger-proteine und methoden zum design von zink-finger-proteinen welche an vorselektierte regionen binden

Info

Publication number: DE60005100T2
Application number: DE60005100T
Authority: DE
Inventors: P. Stephen EISENBERG; C. Casey CASE; N. George COX; Andrew Jamieson; J. Edward REBAR
Original assignee: Sangamo Biosciences Inc
Current assignee: Sangamo Therapeutics Inc
Priority date: 1999-01-12
Filing date: 2000-01-06
Publication date: 2004-06-09
Anticipated expiration: 2020-01-07
Also published as: US20030105593A1; JP4350907B2; AU2722000A; GB2348425B; JP5162405B2; US6453242B1; GB2348425A; US20070287189A1; EP1352975B1; WO2000042219A9; US7788044B2; US6785613B2; DE60031007T2; US20030092000A1; JP2009106276A; ATE249522T1; DE60005100D1; EP1352975A3; EP1075540A4; ATE340872T1

Description

TECHNISCHES GEBIET
Die Erfindung liegt im technischen Gebiet der Bioinformatik und der Proteintechnik.
HINTERGRUND
Zinkfingerproteine (ZFPs) sind Proteine, die an DNA auf sequenzspezifische Weise binden können. Zinkfinger wurden zuerst im Transkriptionsfaktor TFIIIA aus den Oozyten des Afrikanischen Krallenfrosches Xenopus laevis identifiziert. Ein beispielhaftes Motiv, das eine Klasse von diesen Proteinen charakterisiert (C₂H₂-Klasse) ist -Cys-(X)_2–4-Cys-(X)₁₂-His (X)_3–5-His (wobei X eine beliebige Aminosäure ist). Die Domäne eines einzelnen Fingers ist ungefähr 30 Aminosäuren lang, und mehrere Strukturstudien haben gezeigt, dass er eine Alphahelix enthaltend zwei Invariante Histidinreste und zwei Invariante Cysteinreste in einem Beta-Turn durch Zink koordiniert enthält. Bis heute wurden in mehreren Tausend bekannten oder putativen Transkriptionsfaktoren über 10.000 Zinkfingersequenzen identifiziert. Zinkfingerdomänen sind nicht nur in die DNA-Erkennung involviert, sondern auch in RNA-Bindung und in Protein-Protein-Bindung. Laufende Schätzungen besagen, dass diese Klasse von Molekülen etwa 2% aller menschlichen Gene bildet.
Die Röntgenkristallstruktur von Zif268, einer Domäne mit drei Fingern aus einem murinen Transkriptionsfaktor wurde als Komplex mit einer verwandten DNA-Sequenz aufgeklärt und zeigt, dass jeder Finger dem nächsten durch periodische Rotation überlagert werden kann. Die Struktur deutet darauf hin, dass jeder Finger unabhängig über Intervalle aus 3 Basenpaaren mit DNA interagiert, wobei sie mit Seitenketten an den Positionen –1, 2, 3 und 6 auf jeder Erkennungshelix mit ihren jeweiligen DNA-Triplett-Teilorten Kontakte bildet. Der Aminoterminus von Zif268 befindet sich am 3'-Ende des DNA-Strangs, mit dem es am meisten Kontakte macht. Neuere Ergebnisse haben gezeigt, dass einige Zinkfinger an eine vierte Base im Zielsegment binden können. Wenn der Strang, mit dem das Zinkfingerprotein die meisten Kontakte macht, als der Zielstrang bezeichnet wird, binden einige Zinkfingerproteine an ein Dreibasentriplett im Zielstrang und eine vierte Base auf dem Nichtzielstrang. Die vierte Base ist komplementär zu der Base direkt 3' des Teilortes aus drei Basen.
Die Struktur des Zif268-DNA-Komplexes legt ebenso nahe, dass die DNA-Sequenzspezifität eines Zinkfingerproteins durch Substitutionen von Aminosäuren an den vier Helixpositionen (–1, 2, 3 und 6) auf jeder der Erkennungshelices des Zinkfingers verändert werden könnte. Phage-Display-Experimente, die kombinatorische Bibliotheken von Zinkfingern verwenden, um diese Beobachtung zu testen, wurden in einer Serie von Veröffentlichungen im Jahre 1994 publiziert (Rebar et al., Science 263, 671–673 (1994); Jamieson et al., Biochemistry 33, 5689–5695 (1994); Choo et al., PNAS 91, 11163–11167 (1994)). Kombinatorische Bibliotheken wurden mit randomisierten Seitenketten in entweder dem ersten oder mittleren Finger von Zif268 konstruiert und dann zur Auswahl eines veränderten Zif268-Bindungsortes verwendet, in dem der passende DNA-Teilort durch ein geändertes DNA-Triplett ersetzt war. Weiterhin führte die Korrelation zwischen der Natur der eingeführten Mutationen und den resultierenden Veränderungen der Bindungsspezifität zu einer partiellen Reihe von Substitutionsregeln zur Konstruktion von ZFPs mit geänderter Bindungsspezifität.
Greisman & Pabo, Science 275, 657–661 (1997) diskutieren eine Weiterentwicklung der Phage-Display-Methode, in der jeder Finger eines Zif268 sukzessive randomisiert und zur Bindung einer neuen Triplettsequenz ausgewählt wurde. Diese Publikation berichtete über die Auswahl von ZFPs für ein hormonresponsives Element des Kerns, für einen p53-Zielort und für eine Sequenz für eine TATA-Box.
Eine Anzahl von Publikationen hat über Versuche berichtet, ZFPs zur Modulation bestimmter Zielorte herzustellen. Zum Beispiel berichten Choo et al., Nature 372, 645 (1994) über einen Versuch, ein ZFP zu konstruieren, das die Expression eines brc-abl-Onkogens reprimieren würde. Das Zielsegment, an das das ZFP binden würde, war eine Sequenz aus neun Basen 5'GCA GAA3' GCC, die zur Überlappung der Verbindung gewählt wurde, die durch eine spezifische onkogene Translokation geschaffen wurde, die die für brc und abl kodierenden Gene fusioniert. Die Intention war, dass ein ZFP, das spezifisch für diesen Zielort ist, an das Onkogen binden würde, ohne an abl- oder brc-Teilgene zu binden. Die Autoren verwendeten Phage-Display, um eine Minibibliothek von variierenden ZFPs auf die Bindung an dieses Zielsegment zu mustern. Es wurde dann berichtet, dass ein dadurch isoliertes abweichendes ZFP die Expression eines stabil transfizierten brc-fähigen Konstruktes in einer Zelllinie reprimiert.
Pomerantz et al., Science 267, 93–96 (1995) berichteten über einen Versuch, ein neues DNA-bindendes Protein durch Fusion von zwei Fingern aus Zif268 mit einer Homöodomäne aus Oct-1 zu konstruieren. Das Hybridprotein wurde dann mit einem transkriptionellen Aktivator zur Expression als chimäres Protein fusioniert. Es wurde berichtet, dass das chimäre Protein an einen Zielort bindet, der ein Hybrid von Teilorten seiner beiden Bestandteile darstellt. Die Autoren konstruierten dann einen Reportervektor, der ein operativ mit einem Promotor verknüpftes Luciferasegen und einen Hybridort für das chimäre DNA-Bindungsprotein in der Nähe des Promotors enthielt. Die Autoren berichteten, dass ihr chimäres DNA-Bindungsprotein die Expression des Luciferasegens aktivieren konnte.
Liu et al., PNAS 94, 5525–5530 (1997) berichten über die Bildung eines zusammengesetzten Zinkfingerproteins durch Verwenden eines Peptid-Distanzstückes, um zweifingerige Zinkfingerproteine zu verbinden, die jeweils drei Finger haben. Weiterhin wurde das zusammengesetzte Protein dann mit einer transkriptionellen Aktivierungsdomäne verbunden. Es wurde berichtet, dass das erhaltene chimäre Protein an einen Zielort band, der aus den Zielsegmenten gebildet wurde, die durch die beiden einzelnen Zinkfingerproteine gebunden wurden. Weiterhin wurde berichtet, dass das chimäre Zinkfingerprotein die Transkription eines Reportergens aktivieren konnte, als ihr Zielort in ein Reporterplasmid in der Nähe eines Promotors inseriert wurde, der operativ mit dem Reporter verbunden war.
Choo et al., WO 98/53058, W0 98/53059 und W0 98/53060 (1998) diskutieren die Auswahl von Zinkfingerproteinen, die an einen Zielort innerhalb des HIV-Tat-Gens binden. Choo et al. diskutieren ebenfalls die Auswahl eines Zinkfingerproteins zur Bindung an einen Zielort, der einen Ort einer gebräuchlichen Mutation im Onkogen ras umfasst. Der Zielort innerhalb von ras wurde daher durch die Position der Mutation eingeschränkt.
Keine der obigen Studien stellte Kriterien für die systematische Beurteilung der jeweiligen Vorzüge der verschiedenen möglichen Zielorte innerhalb eines Kandidatengens bereit. Die Phage-Display-Studien von Rebar et al., supra, Jamieson et al., supra und Choo et al., PNAS (1994), supra, konzentrierten sich alle auf die Veränderungen der natürlichen Zif268-Bindungsstelle 5'GCG TGG GCGc3' und wurden nicht in Bezug auf ein vorbestimmtes Zielgen durchgeführt. Die Auswahl eines Zielortes von Choo et al., Nature (1994), supra, war allein durch die Intention eingeschränkt, dass der Ort das Verbindungsstück zwischen brc- und abl-Segmenten überlappt und bezog keinen Vergleich zwischen verschiedenen potentiellen Zielorten ein. Entsprechend wählten Greisman & Pabo bestimmte Zielorte wegen ihrer bekannten regulatorischen Rollen und betrachteten nicht die relativen Vorzüge verschiedener möglicher Zielsegmente innerhalb eines vorgewählten Zielgens. Ähnlich war die Wahl des Zielortes von Choo et al. (1998), supra, innerhalb von ras durch die Position der Mutation eingeschränkt. Durch die Auswahl eines Zielortes in HIV-Tat von Choo et al. (1998) wird kein Kriterium für die Auswahl bereitgestellt. Schließlich konstruierten sowohl Pomerantz et al., supra und Liu et al., supra, künstliche hybride Zielorte für zusammengesetzte Zinkfinger und inserierten den Zielort in Reporterkonstrukte.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfindung stellt Verfahren zur Synthese eines Zinkfingerproteins (ZFP) oder einer Nukleinsäure kodierend dasselbe bereit, wobei das ZFP an einen Zielort in einer Zielnukleinsäure bindet, wie in Anspruch 1 definiert. Diese Verfahren umfassen das Bereitstellen einer Zielnukleinsäure zum Targeting durch ein Zinkfingerprotein und Ausgeben eines Zielortes innerhalb der Zielnukleinsäure umfassend 5'NNx aNy bNzc3'. Jedes von (x,a), (y,b) und (z,c) ist (N,N) oder (G,K), vorausgesetzt, wenigstens eines von (x,a), (y,b) und (z,c) ist (G,K). N und K sind mehrdeutige Abkürzungen entsprechend IUPAC-IUB. In einigen Verfahren werden mehrere Segmente innerhalb der Zielnukleinsäure ausgewählt, und ein Teilsatz der mehreren Segmente umfassend 5'NNX aNy bNzc3' wird ausgegeben. Typischerweise umfasst die Zielnukleinsäure ein Zielgen. In einigen Verfahren sind wenigstens zwei (x,a), (y,b) und (z,c) (G,K). In einigen Verfahren sind alle drei (x,a), (y,b) und (z,c) (G,K). Einige Verfahren umfassen weiterhin Identifizieren eines zweiten Segmentes eines Gens umfassend 5'NNx aNy bNzc3', wobei jedes von (x,a), (y,b) und (z,c) (N,N) oder (G,K) ist; wenigstens eines von (x,a), (y,b) und (z,c) ist (G,K), und N und K sind mehrdeutige Abkürzungen entsprechend IUPAC-IUB. In einigen Verfahren sind im zweiten Segment wenigstens zwei von (x,a), (y,b) und (z,c) (G,K). In einigen Verfahren sind alle drei von wenigstens einem von (x,a), (y,b) und (z,c) (G,K). In einigen Verfahren sind das erste und das zweite Segment durch weniger als 5 Basen im Zielort voneinander getrennt.
Einige Verfahren umfassen weiterhin Synthetisieren eines Zinkfingerproteins umfassend einen ersten, zweiten und dritten Finger, die jeweils an die bNz-, aNy- und NNx-Tripletts binden. In einigen derartigen Verfahren umfasst der Syntheseschritt Synthetisieren eines ersten Zinkfingerproteins umfassend drei Zinkfinger, die an die NNx-, aNy- und bNz-Tripletts im Zielsegment binden und weitere drei Finger, die jeweils an die NNx-, aNy- und bNz-Tripletts im zweiten Zielsegment binden. In einigen Verfahren wird jeder der ersten, zweiten und dritten Finger unabhängig voneinander ausgewählt oder konstruiert. In einigen Verfahren wird ein Finger aus einer Datenbank konstruiert, enthaltend Bezeichnungen von Zinkfingerproteinen, Unterbezeichnungen von Fingerkomponenten und Nukleinsäuresequenzen, die von den Zinkfingerproteinen gebunden werden. In einigen Verfahren wird ein Finger durch Mustern von Varianten eines zinkfingerbindenden Proteins auf eine spezifische Bindung an den Zielort ausgewählt, um eine Variante zu identifizieren, die an den Zielort bindet.
Einige Verfahren umfassen weiterhin Inkontaktbringen einer Probe enthaltend die Zielnukleinsäure mit dem Zinkfingerprotein, wobei das Zinkfingerprotein an den Zielort bindet, um das Vorhandensein der Zielnukleinsäure oder einer bestimmten allelischen Form davon anzuzeigen. In einigen Verfahren wird eine Probe enthaltend die Zielnukleinsäure mit dem Zinkfingerprotein in Kontakt gebracht, wobei das Zinkfingerprotein an den Zielort bindet und hierbei die Expression der Zielnukleinsäure moduliert.
In einigen Verfahren tritt der Zielort in einer kodierenden Region auf. In einigen Verfahren tritt der Zielort innerhalb oder benachbart zu einem Promotor, Enhancer oder einem Transkriptionsstart auf. In einigen Verfahren tritt der Zielort außerhalb eines Promotors, einer regulatorischen Sequenz oder einer polymorphen Stelle innerhalb der Zielnukleinsäure auf.
In einem anderen Aspekt stellt die Erfindung weitere Verfahren zur Auswahl eines Zielortes innerhalb eines Polynukleotides zum Targeting durch ein Zinkfingerprotein bereit. Diese Verfahren umfassen Bereitstellen einer Polynukleotidsequenz und Auswählen eines möglichen Zielortes innerhalb der Polynukleotidsequenz, wobei der mögliche Zielort aufeinanderfolgende erste, zweite und dritte Basentripletts an ersten, zweiten und dritten Positionen im möglichen Zielort umfasst. Mehrere Teilscores werden dann durch die Anwendung von Korrespondenzregeln zwischen Tripletts und Triplettpositionen in einer Sequenz von drei aufeinanderfolgenden Tripletts bestimmt, wobei jedes Triplett erste, zweite und dritte entsprechende Positionen hat, und jede Kombination von Triplett und Triplettposition einen bestimmten Teilscore hat. Ein Score wird dann für den möglichen Zielort durch die Kombination von Teilscores für das erste, zweite und dritte Triplett berechnet. Die Schritte zur Auswahl, Bestimmung und Berechnung werden dann wenigstens einmal für einen weiteren möglichen Zielort umfassend ein erstes, zweites und drittes Triplett an einer ersten, zweiten und dritten Position des weiteren möglichen Zielortes wiederholt, um einen weiteren Score zu bestimmen. Ausgegeben wird dann wenigstens ein möglicher Zielort mit seinem Score. In einigen Verfahren wird der mögliche Zielort mit dem höchsten Score ausgegeben. In einigen Verfahren werden die n möglichen Zielorte mit den höchsten Scores ausgegeben, und das Verfahren umfasst weiterhin die Eingabe eines Wertes für n durch den Benutzer. In einigen Verfahren werden die Teilscores durch die Bildung des Produktes der Teilscores gebildet. In einigen Verfahren umfassen die Korrespondenzregeln 64 Tripletts, von denen jedes eine erste, zweite und dritte entsprechende Position hat, und 192 Teilscores.
In einigen Verfahren werden die Teilscores mit Korrespondenzregeln durch Zuweisen eines ersten Wertes als der Teilscore eines Teilsatzes von Tripletts und entsprechenden Positionen bestimmt, für die es alle ein existierendes Zinkfingerprotein gibt, das einen Finger umfasst, der spezifisch an das Triplett mit derselben Position im existierenden Zinkfingerprotein im Vergleich zu der entsprechenden Position des Tripletts der Korrespondenzregeln bindet; durch Zuweisen eines zweiten Wertes als der Teilscore eines Teilsatzes von Tripletts und entsprechenden Positionen, für die es alle ein existierendes Zinkfingerprotein gibt, das einen Finger umfasst, der spezifisch an das Triplett mit unterschiedlicher Position im existierenden Zinkfingerprotein im Vergleich zu der entsprechenden Position des Tripletts der Korrespondenzregeln bindet; und durch Zuweisen eines dritten Wertes als der Teilscore eines Teilsatzes von Tripletts und entsprechenden Positionen, für die es kein existierendes Zinkfingerprotein gibt, das einen Finger umfasst, der spezifisch an das Triplett bindet.
In einigen Verfahren ist ein Kontextparameter für den Teilscore von wenigstens einem des ersten, zweiten und dritten Tripletts vorhanden, um einen skalierten Teilscore des wenigstens einen Tripletts zu ergeben. In einigen Verfahren wird der Kontextparameter mit dem Teilscore kombiniert, wenn der Zielort eine Basensequenz 5'NNGK3' umfasst, wobei NNG das wenigstens eine Triplett ist.
In einem anderen Aspekt stellt die Erfindung Verfahren zur Konstruktion eines Zinkfingerproteins bereit. Derartige Verfahren verwenden eine Datenbank umfassend Bezeichnungen für mehrere Zinkfingerproteine, jedes Protein umfassend wenigsten einen ersten, zweiten und dritten Finger, und Unterbezeichnungen für jeden der drei Finger von jedem der Zinkfingerproteine; eine entsprechende Nukleinsäuresequenz für jedes Zinkfingerprotein, jede Sequenz umfassend wenigstens ein erstes, zweites und drittes Triplett spezifisch gebunden durch den wenigstens ersten, zweiten bzw. dritten Finger in jedem Zinkfingerprotein, wobei das erste, zweite und dritte Triplett in der Nukleinsäuresequenz (3'-5') in der entsprechenden Reihenfolge angeordnet ist wie der erste, zweite und dritte Finger im Zinkfingerprotein angeordnet ist (N-terminal bis C-terminal). Ein Zielort wird für die Konstruktion eines Zinkfingerproteins bereitgestellt, wobei der Zielort aufeinanderfolgende erste, zweite und dritte Tripletts in 3'-5'-Reihenfolge umfasst. Für das erste, zweite und dritte Triplett im Zielort werden erste, zweite und dritte Sätze von Zinkfingerprotein(en) in der Datenbank identifiziert, wobei der erste Satz Zinkfingerproteine) umfasst, die einen Finger umfassen, der spezifisch an das erste Triplett im Zielort bindet, der zweite Satz Zinkfingerproteine) umfasst, die einen Finger umfassen, der spezifisch an das zweite Triplett im Zielort bindet, der dritte Satz Zinkfingerproteine) umfasst, die einen Finger umfassen, der spezifisch an das dritte Triplett im Zielort bindet. Bezeichnungen und Unterbezeichnungen der Zinkfingerproteine im ersten, zweiten und dritten Satz, die in Schritt (c) identifiziert werden, werden dann ausgegeben. Einige Verfahren umfassen weiterhin das Herstellen eines Zinkfingerproteins, das an den Zielort bindet, der einen ersten Finger eines Zinkfingerproteins des ersten Satzes, einen zweiten Finger eines Zinkfingerproteins des zweiten Satzes und einen dritten Finger eines Zinkfingerproteins des dritten Satzes umfasst.
Einige Verfahren umfassen weiterhin Identifizieren von Teilsätzen des ersten, zweiten und dritten Satzes. Der Teilsatz des ersten Satzes umfasst Zinkfingerprotein(e), die einen Finger umfassen, der spezifisch an das erste Triplett im Zielort der Position des ersten Fingers eines Zinkfingerproteins in der Datenbank bindet. Der Teilsatz des zweiten Satzes umfasst Zinkfingerprotein(e), die einen Finger umfassen, der spezifisch an das zweite Triplett im Zielort der Position des zweiten Fingers eines Zinkfingerproteins in der Datenbank bindet, der Teilsatz des dritten Satzes umfasst Zinkfingerprotein(e), die einen Finger umfassen, der spezifisch an das dritte Triplett im Zielort der Position des dritten Fingers eines Zinkfingerproteins in der Datenbank bindet. Bezeichnungen und Unterbezeichnungen des Teilsatzes des ersten, zweiten und dritten Satzes werden ausgegeben. Dann wird ein Zinkfingerprotein hergestellt, das einen ersten Finger des ersten Teilsatzes, einen zweiten Finger des zweiten Teilsatzes und einen dritten Finger des dritten Teilsatzes umfasst. In einigen der obigen Konstruktionsverfahren wird der Zielort durch den Benutzer bereitgestellt. In einigen Verfahren wird der Zielort durch eines der Auswahlverfahren für den Zielort wie oben beschrieben bereitgestellt.
Die Erfindung stellt weiterhin Computerprogrammprodukte zur Implementierung von beliebigen der oben beschriebenen Verfahren wie in Anspruch 18 definiert bereit. Ein Computerprogrammprodukt implementiert Verfahren zur Auswahl eines Zielortes innerhalb eines Polynukleotides zum Targeting durch ein Zinkfingerprotein. Ein derartiges Produkt umfasst (a) Code zum Bereitstellen einer Polynukleotidsequenz; (b) Code zur Auswahl eines möglichen Zielortes innerhalb der Polynukleotidsequenz; wobei der mögliche Zielort ein erstes, zweites und drittes Basentriplett an erster, zweiter und dritter Position in dem möglichen Zielort umfasst; (c) Code zum Berechnen eines Scores für den möglichen Zielort aus einer Kombination von Teilscores für das erste, zweite und dritte Triplett; wobei die Teilscores aus Korrespondenzregeln zwischen Tripletts und Triplettpositionen erhalten werden, wobei jedes Triplett erste, zweite und dritte entsprechende Positionen hat und jeweils entsprechende Tripletts und Positionen einen besonderen Teilscore haben; (d) Code zum wenigstens einmaligen Wiederholen der Schritte (b) und (c) für einen weiteren möglichen Zielort umfassend ein erstes, zweites und drittes Triplett an erster, zweiter und dritter Position des weiteren möglichen Zielortes, um einen weiteren Score zu bestimmen; e) Code um wenigstens einen der möglichen Zielorte mit seinem Score auszugeben; und (f) ein computerlesbares Speichermedium, um die Codes zu speichern.
Die Erfindung stellt weiterhin Computersysteme zur Implementierung von beliebigen der oben beschriebenen Verfahren wie in Anspruch 19 definiert bereit. Ein derartiges System zur Auswahl eines Zielortes innerhalb einer Polynukleotidsequenz zum Targeting durch ein Zinkfingerprotein umfasst (a) einen Speicher; (b) einen Systembus; und (c) einen Prozessor. Der Prozessor ist operativ bestimmt: (1) zum Bereitstellen oder Empfangen einer Polynukleotidsequenz; (2) zur Auswahl eines möglichen Zielortes innerhalb der Polynukleotidsequenz; wobei der mögliche Zielort ein erstes, zweites und drittes Basentriplett an erster, zweiter und dritter Position in dem möglichen Zielort umfasst; (3) zum Berechnen eines Scores für den möglichen Zielort aus einer Kombination von Teilscores für das erste, zweite und dritte Triplett; wobei die Teilscores aus Korrespondenzregeln zwischen Tripletts und Triplettpositionen erhalten werden, wobei jedes Triplett erste, zweite und dritte entsprechende Positionen hat und jeweils entsprechende Tripletts und Positionen einen besonderen Teilscore haben; (4) zum Wiederholen der Schritte (2) und (3) wenigstens einmal für einen weiteren möglichen Zielort umfassend ein erstes, zweites und drittes Triplett an erster, zweiter und dritter Position des weiteren möglichen Zielortes, um einen weiteren Score zu bestimmen; (5) zum Ausgeben wenigstens eines der möglichen Zielorte mit seinem Score.
Ein weiteres Computerprogrammprodukt zum Herstellen eines Zinkfingerproteins umfasst: (a) Code zum Bereitstellen einer Datenbank umfassend Bezeichnungen für mehrere Zinkfingerproteine, wobei jedes Protein wenigsten einen ersten, zweiten und dritten Finger umfasst; Unterbezeichnungen für jeden der drei Finger von jedem der Zinkfingerproteine; eine entsprechende Nukleinsäuresequenz für jedes Zinkfingerprotein, wobei jede Sequenz wenigstens ein erstes, zweites und drittes Triplett spezifisch gebunden durch den wenigstens ersten, zweiten bzw. dritten Finger in jedem Zinkfingerprotein umfasst, wobei das erste, zweite und dritte Triplett in der Nukleinsäuresequenz (3'-5') in der entsprechenden Reihenfolge angeordnet ist wie der erste, zweite und dritte Finger im Zinkfingerprotein angeordnet ist (N-Terminus bis C-Terminus); (b) Code zum Bereitstellen eines Zielortes zur Konstruktion eines Zinkfingerproteins, wobei der Zielort erste, zweite und dritte Tripletts umfasst; (c) Code zum Identifizieren erster, zweiter und dritter Sätze von Zinkfingerprotein(en) in der Datenbank für das erste, zweite und dritte Triplett im Zielort, wobei der erste Satz Zinkfingerprotein(e) umfasst, die einen Finger umfassen, der spezifisch an das erste Triplett im Zielort bindet, der zweite Satz einen Finger umfasst, der spezifisch an das zweite Triplett im Zielort bindet, der dritte Satz einen Finger umfasst, der spezifisch an das dritte Triplett im Zielort bindet; (d) Code zum Ausgeben von Bezeichnungen und Unterbezeichnungen der Zinkfingerproteine im ersten, zweiten und dritten Satz identifiziert in Schritt (c), und (e) ein computerlesbares Speichermedium, um die Codes zu speichern.
Die Erfindung stellt weiterhin ein System zum Herstellen eines Zinkfingerproteins bereit. Das System umfasst: (a) einen Speicher; (b) einen Systembus und (c) einen Prozessor. Der Prozessor ist operativ bestimmt: (1) zum Bereitstellen einer Datenbank umfassend Bezeichnungen für mehrere Zinkfingerproteine, wobei jedes Protein wenigsten einen ersten, zweiten und dritten Finger umfasst; Unterbezeichnungen für jeden der drei Finger von jedem der Zinkfingerproteine; eine entsprechende Nukleinsäuresequenz für jedes Zinkfingerprotein, wobei jede Sequenz wenigstens ein erstes, zweites und drittes Triplett spezifisch gebunden durch den wenigstens ersten, zweiten bzw. dritten Finger in jedem Zinkfingerprotein umfasst, wobei das erste, zweite und dritte Triplett in der Nukleinsäuresequenz (3'-5') in der entsprechenden Reihenfolge angeordnet ist wie der erste, zweite und dritte Finger im Zinkfingerprotein angeordnet ist (N-Terminus bis C-Terminus); (2) zum Bereitstellen eines Zielortes zur Konstruktion eines Zinkfingerproteins, wobei der Zielort erste, zweite und dritte Tripletts umfasst; (3) zum Identifizieren erster, zweiter und dritter Sätze von Zinkfingerprotein(en) in der Datenbank für das erste, zweite und dritte Triplett im Zielort, wobei der erste Satz Zinkfingerprotein(e) umfasst, die einen Finger umfassen, der spezifisch an das erste Triplett im Zielort bindet, der zweite Satz einen Finger umfasst, der spezifisch an das zweite Triplett im Zielort bindet, der dritte Satz einen Finger umfasst, der spezifisch an das dritte Triplett im Zielort bindet; und (4) zum Ausgeben von Bezeichnungen und Unterbezeichnungen der Zinkfingerproteine im ersten, zweiten und dritten Satz, die in Schritt (3) identifiziert wurden.
KURZE BESCHREIBUNG DER ABBILDUNGEN
1 zeigt ein Diagramm mit Daten, die die Anwesenheit und die Zahl von Teilorten eines Zielortes gebunden durch ein Zinkfingerprotein mit der Bindungsaffinität korrelieren.
2 zeigt ein Zinkfingerprotein mit drei Fingern gebunden an einen Zielort, der drei D-fähige Teilorte enthält.
3 zeigt den Prozess des Zusammenfügens einer Nukleinsäure kodierend ein konstruiertes ZFP.
4 und 5 zeigen Computersysteme zur Implementierung von Verfahren zur Auswahl eines Zielortes und zur Konstruktion von Zinkfingerproteinen.
6 zeigt ein Flussdiagramm eines Verfahrens zur Auswahl eines Zielortes enthaltend einen D-fähigen Teilort innerhalb der Zielsequenz.
7A zeigt ein Flussdiagramm zur Auswahl eines Zielortes innerhalb einer Zielsequenz unter Verwendung von Korrespondenzregeln.
7B zeigt ein Flussdiagramm zur Konstruktion eines ZFPs unter Verwendung einer Datenbank zum Binden an einen gewünschten Zielort.
8A ist ein vollständiges Repräsentationsdiagramm einer ZFP-Datenbank.
8B ist die Repräsentation einer ZFP-Datenbank.
DEFINITIONEN
Ein Zinkfinger-DNA-bindendes Protein ist ein Protein oder Segment innerhalb eines größeren Proteins, das DNA auf eine sequenzspezifische Weise als Ergebnis einer Stabilisierung einer Proteinstruktur durch Koordination eines Zinkions bindet. Der Begriff Zinkfinger-DNA-bindendes Protein wird oft als Zinkfingerprotein oder ZFP abgekürzt.
Ein konstruiertes Zinkfingerprotein ist ein Protein, das nicht in der Natur auftritt, dessen Konstruktion/Zusammenstellen prinzipiell aus rationalen Kriterien resultiert. Rationale Kriterien zur Konstruktion schließen die Anwendung von Substitutionsregeln und computerisierten Algorithmen zur Verarbeitung von Informationen in einer Datenbank ein, die Informationen über existierende ZFP-Konstrukte und -Bindungsdaten speichert.
Ein ausgewähltes Zinkfingerprotein ist ein Protein, das nicht in der Natur gefunden wird und dessen Herstellung in erster Linie aus einem empirischen Prozess wie z. B. Phage display resultiert.
Der Begriff "in der Natur auftretend" wird zur Unterscheidung von "künstlich durch den Menschen hergestellt" verwendet, um ein Objekt zu beschreiben, das in der Natur gefunden werden kann. Zum Beispiel ist eine Polypeptid- oder Polynukleotidsequenz "in der Natur auftretend", wenn sie in einem Organismus vorkommt (einschließlich Viren), aus einer natürlichen Quelle isoliert werden kann und nicht absichtlich durch den Menschen im Labor verändert wurde. Generell bezieht sich der Begriff "in der Natur auftretend" auf ein Objekt, das in einem nicht-pathologischen (nichtkranken) Individuum vorhanden ist, wie es für die Spezies typisch ist.
Eine Nukleinsäure ist operativ verknüpft, wenn sie in eine funktionellen Beziehung mit einer anderen Nukleinsäuresequenz gebracht wird. Zum Beispiel ist ein Promotor oder Enhancer operativ mit einer kodierenden Sequenz verknüpft, wenn er die Transkription der kodierenden Sequenz erhöht. Operativ verknüpft bedeutet, dass die DNA-Sequenzen, die miteinander verbunden sind, typischerweise aufeinanderfolgen, und wo zum Verbinden von zwei für Proteine kodierenden Regionen notwendig, folgen sie im selben Leseraster aufeinander. Da jedoch Enhancer generell funktionieren, wenn sie vom Promotor durch bis zu mehrere Kilobasen oder mehr getrennt sind, und intronische Sequenzen eine variable Länge haben können, können einige Polynukleotidelemente operativ verknüpft sein, aber nicht aufeinanderfolgen.
Eine spezifische Bindungsaffinität zwischen z. B. einem ZFP und einem spezifischen Zielort bedeutet eine Bindundsaffinität von wenigstens 1 × 10⁶ M^–1.
Die Begriffe "die Expression eines Gens modulierend", "die Expression eines Gens inhibierend" und "die Expression eines Gens aktivierend" beziehen sich auf die Fähigkeit eines Zinkfingerproteins, die Transkription eines Gens zu aktivieren oder zu inhibieren. Aktivierung schließt die Verhinderung nachfolgender transkriptioneller Inhibition ein (z. B. Verhinderung der Repression einer Genexpression), und Inhibition schließt die Verhinderung nachfolgender transkriptioneller Aktivierung ein (z. B. Verhinderung von Genaktivierung). Modulation kann durch Bestimmen beliebiger Parameter geprüft werden, die indirekt oder direkt durch die Expression eines Zielgens betroffen sind. Solche Parameter schließen z. B. Veränderungen der RNA- oder Proteinspiegel ein, Veränderungen der Proteinaktivität, Veränderungen der Produktspiegel, Veränderungen der stromabwärts stattfindenden Genexpression, Veränderungen der Transkription von Reportergenen (Luciferase, CAT, beta-Galactosidase, GFP (siehe z. B. Mistili & Spector, Nature Biotechnology, 15: 961–964 (1997)); Veränderungen der Signaltransduktion, Phosphorylierung und Dephosphorylierung, Rezeptor-Ligand-Interaktionen, Konzentrationen sekundärer Botenstoffe (z. B. cGMP, cAMP, IP3 und Ca2+), Zellwachstum, Neovaskularisation, in vitro, in vivo und ex vivo. Derartige funktionale Effekte können durch beliebige Mittel, die dem Fachmann bekannt sind, gemessen werden, z. B. durch Messen von RNA- oder Proteinspiegeln, Messen von RNA-Stabilität, Identifizieren von stromabwärts stattfindender Expression oder Reportergenexpression, z. B. durch Chemilumineszenz, Fluoreszenz, Kolorimetrische Reaktionen, Antikörperbindung, induzierbare Macker, Ligandenbindungsversuche; Veränderungen der intrazellulären sekundären Botenstoffe wie z. B. cGMP und Inositoltriphosphat (IP3); Veränderungen der intrazellulären Calciumspiegel; Freisetzung von Zytokinen und dergleichen.
Eine "regulatorische Domäne" bezieht sich auf ein Protein oder eine Teilsequenz eines Proteins, das/die eine Aktivität zur transkriptionellen Modulation hat. Typischerweise ist eine regulatorische Domäne kovalent oder nichtkovalent an ein ZFP gebunden, um die Transkription zu modulieren. Alternativ kann ein ZFP alleine ohne eine regulatorische Domäne oder mit mehreren regulatorischen Domänen wirken, um die Transkription zu modulieren.
Ein D-fähiger Teilort innerhalb eines Zielortes hat das Motiv 5'NNGK3'. Ein Zielort, der ein oder mehrere derartige Motive enthält, wird manchmal als ein D-fähiger Zielort beschrieben. Ein Zinkfinger, der entsprechend konstruiert ist, um an einen D-fähigen Teilort zu binden, wird manchmal als ein D-fähiger Finger bezeichnet. Ebenso wird ein Zinkfingerprotein, das wenigstens einen Finger enthält, der konstruiert oder ausgewählt wird, um an einen Zielort zu binden, der wenigstens einen D-fähigen Teilort einschließt, manchmal als D-fähiges Zinkfingerprotein bezeichnet.
AUSFÜHRLICHE BESCHREIBUNG
I. Allgemeines
In einem Aspekt ist die Erfindung auf Verfahren zur Auswahl geeigneter Segmente innerhalb eines vorausgewählten Zielgens zur Konstruktion eines Zinkfingerproteins gerichtet, das zur Verwendung bei der Modulation oder Detektion des Gens gedacht ist. Die Größe eines möglichen Zielgens kann über einen weiten Bereich von um 100 bis zu mehreren 100.000 bp variieren. Ein Zinkfingerprotein kann an eine kurze Teilsequenz oder einen Zielort innerhalb eines solchen Gens binden. Zum Beispiel binden Zinkfingerproteine, die drei Finger enthalten, typischerweise an neun oder zehn Basen eines Zielgens. Die Erfindung stellt Kriterien und Verfahren zum Auswählen optimaler Teilsequenzen) aus einem Zielgen zum Targeting durch ein Zinkfingerprotein bereit.
Einige der Verfahren zur Auswahl eines Zielortes versuchen, ein oder mehrere Zielsegmente zu identifizieren, die ein DNA-Motiv haben, das einen oder mehrere sogenannte D-fähige Teilorte enthält. Ein D-fähiger Teilort ist durch eine charakteristische DNA-Sequenzformel definiert wie weiter unten ausführlich diskutiert. Ein Zinkfingerprotein kann an ein solches Motiv auf eine Weise binden, dass wenigstens ein einzelner Finger des Zinkfingerproteins eine zusätzliche Base außerhalb des Teilortes aus drei Basen, der normalerweise durch einen Finger gebunden wird, kontaktiert. Wenn zwei D-fähige Orte im Zielsegment vorhanden sind, dann können zwei einzelne Finger eines Zinkfingerproteins jeweils an vier Basen des Zielortes binden. Wenn drei D-fähige Teilorte im Zielsegment vorhanden sind, dann können drei einzelne Finger eines Zinkfingerproteins jeweils an vier Basen des Zielortes binden. Im allgemeinen zeigen Zinkfingerproteine, die an Zielorte enthaltend wenigstens einen D-fähigen Teilort binden, eine höhere Bindungsaffinität als Zinkfingerproteine, die an Zielsegmente binden, denen ein D-fähiger Teilort fehlt. Entsprechend zeigen Zinkfingerproteine, die an einen Zielort mit zwei D-fähigen Teilorten binden, generell eine höhere Bindungsaffinität als Zinkfingerproteine, die an einen Zielort mit einem D-fähigen Teilort binden, und Zinkfingerproteine mit drei D-fähigen Teilorten zeigen generell eine höhere Bindungsaffinität als Zinkfingerproteine, die an einen Zielort mit zwei D-fähigen Teilorten binden. Obwohl ein Verständnis des Mechanismus' nicht notwendig ist, um die Erfindung auszuführen, wird angenommen, dass die höhere Bindungsaffinität aus zusätzlichen Interaktionen resultiert, die zwischen einem Zinkfinger und vier Basen eines Zielsegmentes möglich sind, im Vergleich zu den Interaktionen, die zwischen einem Zinkfinger und drei Basen in einem Zielsegment möglich sind. Im allgemeinen macht das Potential zu hochaffinen Bindungen von Zielsegmenten mit D-fähigen Teilorten diese zu Zielorten der Wahl aus Zielgenen zur Konstruktion von Zinkfingerproteinen, weil eine höhere Bindungsaffinität oft stärker aus der Modulation eines Zielgens resultiert und/oder zu höherer Spezifität bei der Modulation eines Zielgens führt.
Andere erfindungsgemäße Verfahren sind auf die Auswahl von Zielsegmenten innerhalb eines Zielgens nach zusätzlichen oder alternativen Kriterien bezüglich des D-fähigen Teilortes gerichtet. Die prinzipiellen Kriterien zur Auswahl von Zielsegmenten in derartigen Verfahren werden als Korrespondenzregeln zwischen verschiedenen Tripletts von drei Basen und den drei möglichen Positionen eines Tripletts innerhalb eines Ortes aus neun Basen (z. B. Basen 1–3, 4–6 und 7–9) bereitgestellt. Beispielhafte Korrespondenzregeln werden in Tabelle 1 gezeigt. Die Korrespondenzregeln stellen verschiedene Werte für verschiedene Kombinationen von Tripletts und Triplettpositionen innerhalb eines Zielortes bereit. Ein möglicher Zielort innerhalb eines Zielgens wird durch Bestimmen eines Scores für den Ort durch Kombination von Teilscores für ihre einzelnen Tripletts bewertet, die aus den Korrespondenzregeln erhalten wurden. Die Scores von verschiedenen möglichen Zielorten werden verglichen, wobei ein hoher Score anzeigt, dass ein bestimmtes Segment als ein Zielort zur Konstruktion von einem zinkfingerbindenden Protein gewünscht ist.
In einem anderen Aspekt stellt die Erfindung Verfahren zur Konstruktion von Zinkfingerproteinen bereit, die an einen vorgewählten Zielort binden. Diese Verfahren können natürlich nach der Vorauswahl von Zielorten entsprechend den Prozeduren und Kriterien wie oben beschrieben verwendet werden. Die Konstruktionsverfahren verwenden eine Datenbank, die Informationen über früher charakterisierte Zinkfingerproteine enthält. Diese Informationen schließen Namen oder andere Bezeichnungen von früher charakterisierten Zinkfingerproteinen ein, die Aminosäuresequenz von ihren Einzelfingern und die Nukleotidtripletts, die durch jeden Finger der Proteine gebunden werden. Auf die Informationen in der Datenbank wird durch die Verwendung eines Algorithmus" zugegriffen, der es erlaubt, Finger von verschiedenen früheren Konstrukten zur Kombination in einem neuen Zinkfingerprotein auszuwählen, das für einen gewählten Zielort spezifisch ist.
II. ZINKFINGERPROTEINE
Zinkfingerproteine werden aus Zinkfingerkomponenten gebildet. Zum Beispiel können Zinkfingerproteine einen bis siebenunddreißig Finger haben, im allgemeinen haben sie 2, 3, 4, 5 oder 6 Finger. Ein Zinkfingerprotein erkennt und bindet an einen Zielort (manchmal als ein Zielsegment bezeichnet), der eine relativ kleine Teilsequenz innerhalb eines Zielgens repräsentiert. Jeder Einzelfinger eines Zinkfingerproteins kann an einen Teilort innerhalb des Zielortes binden. Der Teilort schließt ein Triplett von drei aufeinanderfolgenden Basen ein, die alle auf demselben Strang sind (manchmal als Zielstrang bezeichnet). Der Teilort kann ebenso eine oder keine vierte Base auf dem entgegengesetzten Strang einschließen, die das Komplement der Base unmittelbar 3' der drei aufeinanderfolgenden Basen auf dem Zielstrang ist. In vielen Zinkfingerproteinen bindet ein Zinkfinger an seinen Triplett-Teilort weitgehend unabhängig von anderen Fingern imselben Zinkfingerprotein. Entsprechend ist die Bindungsspezifität eines Zinkfingerproteins enthaltend mehrere Finger normalerweise annähernd die Summe der Spezifitäten seiner Einzelfinger. Wenn zum Beispiel ein Zinkfingerprotein aus einem ersten, zweiten und dritten Finger gebildet wird, die jeweils für sich genommen an die Tripletts XXX, YYY und ZZZ binden, ist die Bindungsspezifität des Zinkfingerproteins 3'XXX YYY ZZZ5'.
Die relative Reihenfolge von Fingern in einem Zinkfingerprotein von N-terminal nach C-terminal bestimmt die relative Reihenfolge von Tripletts in der 3'- nach 5'-Richtung im Ziel. Wenn zum Beispiel ein Zinkfingerprotein von N-terminal bis C-terminal den oben erwähnten ersten, zweiten und dritten Finger umfasst, bindet das Zinkfingerprotein an das Zielsegment 3'XXXYYYZZZ5'. Wenn das Zinkfingerprotein die Finger in einer anderen Reihenfolge umfasst, z. B. zweiter Finger, erster Finger dritter Finger, dann bindet das Zinkfingerprotein an ein Zielsegment umfassend eine unterschiedliche Permutation der Tripletts, in diesem Beispiel, 3'YYYXXXZZZ5' (siehe Berg & Shi, Science 271, 1081–1086 (1996)). Die Beurteilung von Bindungseigenschaften eines Zinkfingerproteins als Summe seiner Einzelfinger ist jedoch aufgrund von kontextabhängigen Wechselwirkungen von mehreren bindenden Fingern desselben Proteins nur annähernd.
Zwei oder mehr Zinkfingerproteine können verbunden werden, um eine Zielspezifität zu haben, die die Summe der Zielspezifitäten der einzelnen Zinkfingerproteine ist (siehe z. B. Kim & Pabo, PNAS 95, 2812–2817 (1998)). Zum Beispiel kann ein erstes Zinkfingerprotein, das erste, zweite und dritte Einzelfinger hat, die jeweils an XXX, YYY und ZZZ binden, mit einem zweiten Zinkfingerprotein verbunden werden, das erste, zweite und dritte Einzelfinger mit Bindungsspezifitäten AAA, BBB und CCC hat. Die Bindungsspezifität des kombinierten ersten und zweiten Proteins ist daher 3'XXXYYYZZZ_AAABBBCCC5', wobei der Unterstrich eine kurze dazwischenliegende Region anzeigt (typischerweise 0–5 Basen beliebigen Typs). In dieser Situation kann der Zielort als zwei Zielsegmente umfassend betrachtet werden, die durch ein dazwischenliegendes Segment getrennt sind.
Die Verbindung kann durch Verwenden eines beliebigen der folgenden Peptid-Bindungsstücke hergestellt werden. T G E K P: (Liu et al., 1997, supra); (G4S)n (Kim et al, PNAS 93, 1156–1160 (1996); GGRRGGGS; LRQRDGERP; LRQKDGGGSERP; LRQKD(G3S)2 ERP. Alternativ können flexible Bindungsstücke rational unter Verwendung eines Computerprogramms konstruiert werden, welches sowohl DNA-bindende Orte und die Peptide selbst modellieren kann, oder unter Verwendung von Phage-Display-Methoden. In einer weiteren Variante kann eine nichtkovalente Verbindung durch Fusionieren von zwei Zinkfingerproteinen mit Domänen erzielt werden, die die Bildung von Heterodimeren der beiden Zinkfingerproteine unterstützen. Zum Beispiel kann ein Zinkfingerprotein mit fos und ein anderes mit jun fusioniert werden (siehe Barbas et al., WO 95/119431).
Die Verbindung von zwei Zinkfingerproteinen ist vorteilhaft, um eine einzigartige Bindungsspezifität innerhalb eines Säugergenoms zu verleihen. Ein typisches diploides Säugergenom besteht aus of 3 × 10⁹ bp. Unter der Annahme, dass die vier Nukleotide A, C, G und T zufällig verteilt sind, ist eine gegebene Sequenz aus 9 bp etwa 23.000 mal vorhanden. Daher hätte ein ZFP, das ein Ziel aus 9 bp mit absoluter Spezifität erkennt, die Möglichkeit, an etwa 23,000 Stellen innerhalb des Genoms zu binden. Eine Sequenz aus 18 bp ist einmal in 3,4 × 10¹⁰ bp vorhanden, oder etwa einmal in einer zufälligen DNA-Sequenz, deren Komplexität zehnmal so groß ist wie ein Säugergenom.
Ein Einzelfinger eines Zinkfingerproteins enthält typischerweise etwa 30 Aminosäuren und hat das folgende Motiv (N-C)
Cys-(X)_2–4-Cys-X.X.X.X.X.X.X.X.X.X.X.X-His-(X)_3–5-His –1 1 2 3 4 5 6 7
Die zwei Invarianten Histidinreste und zwei Invariante Cysteinreste in einem einzigen beta-Turn sind durch Zink koordiniert (siehe z. B. Berg & Shi, Science 271, 1081–1085 (1996)). Das obige Motiv zeigt eine Konvention zur Numerierung, die in dem Arbeitsgebiet für die Region eines Zinkfingers, die die Bindungsspezifitäten verleiht, Standard ist. Der Aminosäure links (auf der N-terminalen Seite) des ersten Invarianten His-Restes wird die Nummer +6 zugewiesen, und anderen Aminosäuren weiter links werden sukzessive abnehmende Nummern zugewiesen. Die Alphahelix beginnt bei Rest 1 und ist bis zu dem Rest ausgedehnt, der dem zweiten konservierten Histidin folgt. Die gesamte Helix hat daher eine variable Länge zwischen 11 und 13 Resten.
Das Verfahren zur Konstruktion oder Auswahl eines nichtnatürlich auftretenden oder davon abweichenden ZFPs beginnt typischerweise mit einem natürlichen ZFP als einer Quelle von Resten für das Gerüst. Das Verfahren zur Konstruktion oder Auswahl dient der Definition von nichtkonservierten Positionen (z. B. Positionen –1 bis +6), um eine gewünschte Bindungsspezifität zu verleihen. Ein geeignetes ZFP ist die DNA-bindende Domäne des Transkriptionsfaktors Zif268 der Maus. Die DNA-bindende Domäne dieses Proteins hat die Aminosäuresequenz:
YACPVESCDRRFSRSDELTRHIRIHTGQKP (F1)
FQCRICMRNFSRSDHLTTHIRTHTGEKP (F2)
FACDICGRKFARSDERKRHTKIHLRQK (F3)
und bindet an das Ziel 5'GCG TGG GCG3'.
Ein anderes geeignetes natürliches Zinkfingerprotein als Quelle von Resten für das Gerüst ist Sp-1. Die Sequenz von Sp-1, die zur Konstruktion von Zinkfingerproteinen verwendet wird, entspricht den Aminosäuren 531 bis 624 im Transkriptionsfaktor Sp-1. Diese Sequenz hat eine Länge von 94 Aminosäuren. Die Aminosäuresequenz von Sp-1 ist wie folgt
PGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERP
FMCTWSYCGKRFTRSDELQRHKRTHTGEKK
FACPECPKRFMRSDHLSKHIKTHQNKKG
Sp-1 bindet an den Zielort 5'000 GCG GGG3'.
Eine alternative Form von Sp-1, die eine Konsensussequenz von Sp-1 ist, hat die folgende Aminosäuresequenz:
meklrngsgd
PGKKKQHACPECGKSFSKSSHLRAHQRTHTGERP
YKCPECGKSFSRSDELQRHQRTHTGEKP
YKCPECGKSFSRSDHLSKHQRTHQNKKG (Kleinbuchstaben sind die Leadersequenz aus Shi & Berg, Chemistry and Biology 1, 83–89. (1995). Die optimale Bindungssequenz für die Konsensussequenz von Sp-1 ist 5'GGGGCGGGG3'. Andere geeignete ZFPs sind weiter unten beschrieben.
Es gibt eine Anzahl von Substitutionsregeln, die die rationale Konstruktion einiger Zinkfingerproteine unterstützen (siehe Desjarlais & Berg, PNAS 90, 2256–2260 (1993); Choo & Klug, PNAS 91, 11163–11167 (1994); Desjarlais & Berg, PNAS 89, 7345–7349 (1992); Jamieson et al., supra; Choo et al., WO 98/53057, WO 98/53058; WO 98/53059; WO 98/53060). Viele dieser Regeln werden durch ortsgerichtete Mutagenese der Dreifingerdomäne des ubiquitären Transkriptionsfaktors Sp-1 gestützt (Desjarlais und Berg, 1992; 1993). Eine dieser Regeln ist, dass ein 5' G in einem DNA-Triplett durch einen Zinkfinger gebunden werden kann, der Arginin an Position 6 der Erkennungshelix inkorporiert. Eine andere Substitutionsregel ist, dass ein G in der Mitte eines Teilortes durch Einschluss eines Histidinrestes an Position 3 eines Zinkfingers erkannt werden kann. Eine weitere Substitutionsregel ist, dass Asparagin inkorporiert werden kann, um A in der Mitte eines Tripletts zu erkennen, Asparaginsäure, Glutaminsäure, Serin oder Threonin können inkorporiert werden, um C in der Mitte eines Tripletts zu erkennen, und Aminosäuren mit kleinen Seitenketten wie z. B. Alanin können inkorporiert werden, um T in der Mitte eines Tripletts zu erkennen. Eine weitere Substitutionsregel ist, dass die 3'-Base des Triplett-Teilortes durch Inkorporieren der folgenden Aminosäuren bei Position –1 der Erkennungshelix erkannt werden kann: Arginin um G zu erkennen, Glutamin um A zu erkennen, Glutaminsäure (oder Asparaginsäure) um C zu erkennen, und Threonin um T zu erkennen. Obwohl diese Substitutionsregeln zur Konstruktion von Zinkfingerproteinen nützlich sind, berücksichtigen sie nicht alle möglichen Zielorte. Außerdem ist die Annahme, die den Regeln zugrundeliegt, lediglich annähernd, nämlich dass eine bestimmte Aminosäure in einem Zinkfinger für die Bindung einer bestimmten Base an einen Teilort verantwortlich ist. Kontextabhängige Wechselwirkungen zwischen nahe beieinander liegenden Aminosäuren in einem Finger oder Bindung von mehreren Aminosäuren an eine einzelne Base oder umgekehrt können/kann eine Veränderung der Bindungsspezifitäten verursachen, die durch die bestehenden Substitutionsregeln vorhergesagt werden.
Die Phage-Display-Technik stellt ein wichtiges empirisches Mittel zur Erzeugung von Zinkfingerproteinen mit einer gewünschten Zielspezifität bereit (siehe z. B. Rebar, US 5,789,538 ; Choo et al., WO 96/06166; Barbas et al., WO 95/19431 und WO 98/543111; Jamieson et al., supra). Das Verfahren kann in Verbindung mit oder als Alternative zur rationalen Konstruktion verwendet werden. Das Verfahren involviert die Erzeugung verschiedener Bibliotheken mutagenisierter Zinkfingerproteine, gefolgt von der Isolierung der Proteine mit gewünschten DNA-Bindungseigenschaften durch Verwendung von Auswahlverfahren aufgrund der Affinität. Um dieses Verfahren zu verwenden, verfährt der Experimentator typischerweise wie folgt. Zuerst wird ein Gen für ein Zinkfingerprotein mutagenisiert, um eine Diversität in Regionen einzuführen, die für die Bindungsspezifität und/oder die Affinität wichtig sind. In einer typischen Anwendung wird dies durch Randomisierung eines einzelnen Fingers an den Positionen –1, +2, +3, und +6 geleistet, und manchmal an den zusätzlichen Positionen wie z. B. +1, +5, +8 und +10. Als nächstes wird das mutagenisierte Gen in einen Phagen oder Phagemidvektor als Fusion mit Gen III eines filamentösen Phagen kloniert, der für das Hüllenprotein pIII kodiert. Das Zinkfingergen wird zwischen Segmente von Gen III inseriert, die das Signalpeptid für Membranexport und den Rest von pIII kodieren, so dass das Zinkfingerprotein als eine aminoterminale Fusion mit pIII oder im reifen prozessierten Protein exprimiert wird. Bei Verwendung von Phagemidvektoren kann das mutagenisierte Zinkfingergen ebenso mit der gekürzten Version von Gen III fusioniert werden, die mindestens für die C-terminale Region kodiert, die für den Einbau von pIII in den Phagenpartikel benötigt wird. Die resultierende Vektorbibliothek wird in E. coli transformiert und zur Produktion von filamentösen Phagen verwendet, die abweichende Zinkfingerproteine auf ihrer Oberfläche als Fusionen mit dem Hüllenprotein pIII exprimieren. Wenn ein Phagemidvektor verwendet wird, dann benötigt dieser Schritt die Superinfektion mit einem Helferphagen. Die Phagenbibliothek wird dann mit der DNA des Zielortes inkubiert, und Methoden zur Auswahl aufgrund der Affinität werden verwendet, um Phagen zu isolieren, die das Ziel in der Masse der Phagen mit hoher Affinität binden. Typischerweise wird das DNA-Ziel auf einem festen Träger immobilisiert, der dann unter Bedingungen gewaschen wird, die hinreichend sind, um alle Phagen bis auf den am festesten bindenden Phagen zu entfernen. Nach dem Waschen werden alle Phagen, die auf dem Träger verblieben sind, durch Elution unter Bedingungen, die die Bindung zwischen Zinkfinger und DNA zerstören, gewonnen. Gewonnene Phagen werden zur Infektion frischer E. coli verwendet, die dann amplifiziert und zur Produktion einer neuen Charge Phagenpartikel verwendet werden. Auswahl und Amplifikation werden dann sooft wie notwendig wiederholt, um einen Pool aus fest bindenden Phagen anzureichern, so dass diese durch Sequenzierungs- und Musterungsverfahren identifiziert werden können. Obwohl das Verfahren für pIII-Fusionen dargestellt wurde, können analoge Prinzipien verwendet werden, um ZFP-Varianten in Form von pVIII-Fusionen zu mustern.
Zinkfingerproteine werden oft mit einer heterologen Domäne als Fusionsproteine exprimiert. Übliche Domänen zum Hinzufügen an das ZFP schließen z. B. Domänen von Transkriptionsfaktoren (Aktivatoren, Repressoren, Koaktivatoren, Korepressoren), Silencer, Onkogene (z. B. myc, jun, fos, myb, max, mad, rel, ets, bcl, myb, Mitglieder der mos-Familie, etc.); Enzyme zur DNA-Reparatur und ihre assoziierten Faktoren und allosterischen Effektoren; Enzyme zum DNA-Rearrangement und ihre assoziierten Faktoren und allosterischen Effektoren; chromatinassoziierte Proteine und ihre allosterischen Effektoren (z. B. Kinasen, Acetylasen und Deacetylasen); und DNAmodifizierende Enzyme (z. B. Methyltransferasen, Topoisomerasen, Helikasen, Ligasen, Kinasen, Phosphatasen, Polymerasen, Endonukleasen) und ihre assoziierten Faktoren und allosterischen Effektoren ein. Wenn das ZFP zur Repression der Expression eines Zielgens verwendet werden soll, ist eine bevorzugte Domäne zur Fusion mit einem ZFP die KRAB-Repressionsdomäne vom menschlichen KOX-1-Protein (Thiesen et al., New Biologist 2, 363–374 (1990); Margolin et al., Proc. Natl. Acad Sci. USA 91, 4509–4513 (1994); Pengue et al., Nucl. Acids Res. 22: 2908–2914 (1994); Witzgall et al., Proc. Natl. Acad Sci. USA 91, 4514–4518 (1994)). Um eine Aktivierung zur erzielen, schließen bevorzugte Domänen die HSV-VP16-Aktivierungsdomäne (siehe z. B. Hagmann et al., J. Virol. 71, 5952–5962 (1997)), Hormonrezeptoren des Kerns (siehe z. B. Torchia et al., Curr. Opin. Cell Biol. 10: 373–383 (1998)); die p65-Untereinheit des Kernfaktors Kappa B (Bitko & Barik, J. Virol. 72: 5610–5618 (1998) und Doyle & Hunt, Neuroreport 8: 2937–2942 (1997)); Liu et al., Cancer Gene Ther. 5: 3–28 (1998)), oder künstliche chimäre funktionelle Domänen wie z. B. VP64 (Seifpal et al., EMBO J. 11, 4961–4968 (1992)) ein.
Ein wichtiger Faktor beim Verabreichen von Polypeptidverbindungen, wie z. B. ZFPs, ist die Gewähr, dass das Polypeptid die Fähigkeit hat, die Plasmamembran einer Zelle oder die Membran eines intrazellulären Kompartimentes wie z. B. des Kerns zu durchqueren. Zelluläre Membranen sind aus Doppelschichten aus Lipiden und Proteinen zusammengesetzt, die frei permeabel für kleine nichtionische lipophile Verbindungen und inhärent impermeabel für polare Verbindungen, Makromoleküle und therapeutische oder diagnostische Mittel sind. Jedoch wurden Proteine und andere Verbindungen wie z. B. Liposomen beschrieben, die die Fähigkeit zur Translokation von Polypeptiden wie z. B. ZFPs über die Zellmembran haben.
Zum Beispiel haben „Membrantranslokationspolypeptide" amphiphile oder hydrophobe Aminosäureteilsequenzen, die die Fähigkeit haben, als membrantranslozierende Carrier zu wirken. In einer Ausführungsform haben Proteine mit Homöodomäne die Fähigkeit, über die Zellmembran zu translozieren. Es wurde gefunden, dass das kürzeste internalisierbare Peptid eines Proteins mit Homöodomäne, Antennapedia, die dritte Helix des Proteins von Aminosäureposition 43 bis 58 ist (siehe z. B. Prochiantz, Current Opinion in Neurobiology 6: 629–634 (1996)). Es wurde gefunden, dass eine andere Teilsequenz, die h (hydrophobe) Domäne von Signalpeptiden, ähnliche Charakteristika für die Translokation über die Zellmembran hat (siehe z. B. Lin et al., J. Biol. Chem. 270: 14255–14258 (1995)).
Beispiele von Peptidsequenzen, die zur Erleichterung der Aufnahme von ZFPs in die Zelle an ein erfindungsgemäßes ZFP gebunden werden können, schließen ein, aber sind nicht darauf beschränkt: ein Peptid des tat-Proteins von HIV mit 11 Aminosäuren; eine Peptidsequenz mit 20 Resten, die den Aminosäuren 84–103 des p16-Proteins entspricht (siehe Fahraeus et al., Current Biology 6: 84 (1996)); die dritte Helix der 60 Aminosäuren langen Homöodomäne von Antennapedia (Derossi et al., J. Biol. Chem. 269: 10444 (1994)); die h-Region eines Signalpeptids wie z. B. die h-Region des Kaposi-Fibroblasten-Wachstumsfaktors (K-FGF) (Lin et al., supra); oder die VP22-Translokationsdomäne von HSV (Elliot & O'Hare, Cell 88: 223–233 (1997)). Andere geeignete chemische Gruppen, die eine erhöhte zelluläre Aufnahme bewirken, können ebenso chemisch mit ZFPs verbunden werden.
Toxinmoleküle haben ebenso die Fähigkeit, Polypeptide über Zellmembranen zu transportieren. Oft sind derartige Moleküle aus wenigstens zwei Teilen zusammengesetzt (genannt "binäre Toxine"), einer Domäne oder einem Polypeptid zur Translokation oder zur Bindung und einer separaten Domäne oder einem separaten Polypeptid als Toxin. Typischerweise bindet die Domäne oder das Polypeptid zur Translokation an einen zellulären Rezeptor, und dann wird das Toxin in die Zelle transportiert. Verschiedene bakterielle Toxine, einschließend lotatoxin aus Clostridium perfringens, Diphtherietoxin (DT), Exotoxin A aus Pseudomonas (PE), Pertussistoxin (PT), Toxin aus Bacillus anthracis und die Pertussis-Adenylatcyclase (CYA) wurden in Versuchen verwendet, Peptide in das Zytosol der Zelle als interne oder aminoterminale Fusionen zu verabreichen (Arora et al., J. Biol. Chem, 268: 3334–3341 (1993); Perelle et al., Infect. Immun., 61: 5147–5156 (1993); Stenmark et al., J. Cell Biol. 113: 1025–1032 (1991); Donnelly et al., PNAS 90: 3530–3534 (1993); Carbonetti et al., Abstr. Annu. Meef. Am. Soc. Microbiol. 95: 295 (1995); Sebo et al., Infect. Immun. 63: 3851–3857 (1995); Klimpel et al., PNAS U.S.A. 89: 10277–10281 (1992); und Novak et al., J. Biol. Chem. 267: 17186-17193 (1992)).
Derartige Teilsequenzen können zur Translokation von ZFPs über eine Zellmembran verwendet werden. ZFPs können bequem mit solchen Sequenzen fusioniert oder derivatisiert werden. Typischerweise wird die Translokationssequenz als Teil eines Fusionsproteins bereitgestellt. Optional kann ein Bindungsstück verwendet werden, um das ZFP und die Translokationssequenz zu verbinden. Beliebige geeignete Bindungsstücke können verwendet werden, z. B. ein Peptidbindungsstück.
III. Auswahl von Zielgenen
Zinkfingerproteine können verwendet werden, um die Expression einer beliebigen Zielpolynukleotidsequenz zu modulieren. Die Sequenz kann z. B. genomisch, cDNA oder RNA oder ein „Expressed Sequence Tag (EST)" sein. Typischerweise schließt das Zielpolynukleotid ein Gen oder ein Fragment davon ein. Der Begriff Gen wird breit verwendet, um z. B. Exonregionen, Intronregionen, 5'-UTRs, 3'-UTRs, 5'-flankierende Sequenzen, 3'-flankierende Sequenzen, Promotoren, Enhancer, Transkriptionsstarts, Ribosomenbindungsstellen, regulatorische Stellen, Polyadenylierungsstellen einzuschließen. Zielgene können zellulär, viral oder aus anderen Quellen sein, die rein theoretische Sequenzen einschließen. Sequenzen von Zielgenen können aus Datenbanken erhalten werden, wie z. B. GenBank, der publizierten Literatur, oder können de novo erhalten werden. Zielgene schließen Gene von pathologischen Viren und Mikroorganismen ein, für die die Repression der Expression verwendet werden kann, um eine Infektion zu beenden. Beispiele von pathogenen Viren schließen Hepatitis (A, B, oder C), Herpesvirus (z. B. VZV, HSV-1, HSV-6, HSV-II und CMV, Epstein-Barr-Virus), HIV, Ebola, Adenovirus, Influenzavirus, Flaviviren, ECHO-Virus, Rhinovirus, Coxsackie-Virus, Cornovirus, RS-Virus, Mumpsvirus, Rotavirus, Masernvirus, Rötelnvirus, Parvovirus, Vakziniavirus, HTLV-Virus, Denguevirus, Papillomavirus, Molluscum-Virus, Poliovirus, Tollwutvirus, JC-Virus und Arbovirusenzephalitisvirus ein. Einige Beispiele von pathogenen Bakterien schließen Chlamydien, Rickettsien, Mycobakterien, Staphylokokken, Streptokokken, Pneumokokken, Meningokokken und Gonokokken, Klebsiella, Proteus, Serratia, Pseudomonas, Legionella, Diphtheria, Salmonella, Bazillen, Cholera, Tetanus, Botulismus, Anthrax, Pest, Leptospirose, und Lyme-Borreliosebakterien ein.
Zielgene schließen ebenso Gene vom Menschen und anderen Säugern ein, die zu Krankheiten beitragen. Einige solcher Gene sind Onkogene, Tumorsuppressoren oder Wachstumsfaktoren, die zu Krebs beitragen. Beispiele von Onkogenen schließen hMSH2 (Fishel et al., Cell 75, 1027–1038 (1993)) und hMLH1 (Papadopoulos et al., Science 263, 1625–1628 (1994)) ein. Einige Beispiele von Wachstumsfaktoren schließen Fibroblastenwachstumsfaktor, Plättchen-Wachstumsfaktor, GM-SCF, VEGF, EPO, Erb-B2, und hGH ein. Andere menschliche Gene tragen zu Krankheiten bei, indem sie einen Patienten für eine Infektion durch einen Mikroorganismus oder Virus empfänglich machen. Zum Beispiel machen bestimmte Allele des Gens kodierend für den CCR5-Rezeptor einen Patienten für eine Infektion durch HIV empfänglich. Andere menschliche Gene, wie z. B. dasjenige, das für das Amyloidvorläuferprotein oder ApoE kodiert, trägt zu anderen Krankheiten wie z. B. der Alzheimerschen Krankheit bei.
Zielgene schließen ebenso Gene des Menschen oder anderer Säuger ein, die Verteidigungsmechanismen gegen Krankheiten aufgrund anderer Ursachen bereitstellen. Zum Beispiel bewirken Tumorrepressorgene Schutz gegenüber Krebs. Die Expression von derartigen Genen ist wünschenswert, und Zinkfingerproteine werden verwendet, um die Expression zu aktivieren.
Zielgene schließen ebenso Gene ein, die normalerweise ausgeschaltet oder auf niedrigen Spiegeln exprimiert werden, die aber durch Aktivierung verwendet werden können, um ein anderes defektes Gen zu substitutieren, das in manchen Individuen vorhanden ist. Zum Beispiel können die fötalen Hämoglobingene, die normalerweise in erwachsenen Menschen inaktiv sind, aktiviert werden, um das defekte beta-Globingen in Individuen mit Sichelzellanämie zu substituieren.
Zielgene schließen ebenso Pflanzengene ein, für die die Repression oder Aktivierung zu einer Verbesserung der Pflanzeneigenschaften führt, z. B. verbesserte Fruchtproduktion, Krankheits- oder Herbizidresistenz. Zum Beispiel resultiert die Repression der Expression des FAD2-1-Gens in einem vorteilhaften Anstieg der Ölsäure und einer Verminderung der Linol- und Linolsäuren.
IV. Konstruktion von Zinkfingerproteinen, die an D-fähige Teilorte binden
1. Verfahren
Die Endung stellt Verfahren bereit, die ein Zielgen auswählen und einen Zielort innerhalb des Gens identifizieren, der einen bis sechs (oder mehr) D-fähige Teilorte enthält. Dann kann ein Zinkfingerprotein synthetisiert werden, das an einen vorausgewählten Ort bindet. Diese Verfahren der Auswahl eines Zielortes basieren teilweise auf der Erkenntnis des jetzigen Erfinders, dass das Vorhandensein von einem oder mehreren D-fähigen Teilorten in einem Zielsegment die Möglichkeit für eine höhere Bindungsaffinität eines Zinkfingerproteins verleiht, das ausgewählt oder konstruiert wird, um an diesen Ort zu binden, im Vergleich zu Zinkfingerproteinen, die an Zielsegmente binden, denen D-fähige Teilorte fehlen. Experimentelle Belege, die diese Einsicht stützen, sind in den Beispielen 2–9 gegeben.
Ein D-fähiger Teilort ist eine Region eines Zielortes, die einem entsprechend konstruierten einzelnen Zinkfinger erlaubt, an bis zu vier Basen zu binden, als an bis zu drei des Zielortes. Ein derartiger Zinkfinger bindet an ein Basentriplett auf einem Strang eines doppelsträngigen Zielsegmentes (Zielstranges) und an eine vierte Base auf dem anderen Strang (siehe 2). Um an ein Zielsegment aus vier Basen zu binden, gibt es für einen einzelnen Zinkfinger Beschränkungen sowohl bei der Sequenz des Zielstranges und bei der Aminosäuresequenz des Zinkfingers. Der Zielort innerhalb des Zielstranges sollte das Motiv eines Teilortes für "D-fähig" 5'NNGK3' einschließen, in dem N und K gewöhnliche mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind. Ein Zinkfinger zur Bindung an einen derartigen Ort sollte einen Argininrest an Position –1 und Asparaginsäure (oder weniger bevorzugt Glutaminsäure) an Position +2 einschließen. Der Argininrest an Position –1 interagiert mit dem G-Rest im D-fähigen Teilort. Der Asparaginsäurerest (oder Glutaminsäurerest) an Position +2 des Zinkfingers interagiert mit der Base auf dem Gegenstrang, die komplementär zu der K-Base im D-fähigen Teilort ist. Die Interaktion zwischen Asparaginsäure (Symbol D) und der Base auf dem Gegenstrang (vierte Base) verleiht den Namen „D-fähiger Teilort". Wie aus der Formel für den D-fähigen Teilort ersichtlich, gibt es zwei Subtypen von D-fähigen Teilorten: 5'NNGG3' und 5'NNGT3'. Im ersteren Teilort interagiert die Asparaginsäure oder Glutaminsäure an Position +2 eines Zinkfingers mit dem D-fähigen Teilort mit einem C auf dem Gegenstrang. Im letzteren Teilort interagiert die Asparaginsäure oder Glutaminsäure an Position +2 eines Zinkfingers mit dem D-fähigen Teilort mit einem A auf dem Gegenstrang. Im allgemeinen ist NNGG bevorzugt gegenüber NNGT.
Bei der Konstruktion eines Zinkfingerproteins mit drei Fingern sollte ein Zielort ausgewählt werden, in dem wenigstens ein Finger des Proteins, und vorzugsweise zwei oder drei Finger die Möglichkeit haben, an einen D-fähigen Teilort in einem Zielort zu binden. Dies kann erreicht werden durch Auswählen eines Zielortes aus einem größeren Zielgen mit der Formel
5'NNx aNy bNzc3', wobei
jeder der Sätze (x, a), (y, b) und (z, c) entweder (N, N) oder (G, K) ist;
wenigstens eines von (x, a), (y, b) und (z, c) (G, K) ist, und
N und K mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind.
Mit anderen Worten ist wenigstens einer der drei Sätze (x, a), (y, b) und (z, c) der Satz (G, K), was bedeutet, dass die erste Position des Satzes G und die zweite Position G oder T ist. Diejenigen der drei Sätze (wenn überhaupt vorhanden), die nicht (G, K) sind, sind (N, N), was bedeutet, dass die erste Position des Satzes durch ein beliebiges Nukleotid besetzt sein kann, und dass die zweite Position des Satzes durch ein beliebiges Nukleotid besetzt sein kann. Zum Beispiel kann der Satz (x, a) (G, K) sein, und die Sätze (y, b) und (z, c) können beide (N, N) sein.
In der Formel 5'NNx aNy bNzc3' repräsentieren die Tripletts von NNx, aNy und bNz die Basentripletts auf dem Zielstrang, der von den drei Fingern in einem Zinkfingerprotein gebunden wird. Die entgegengesetzten der hervorgehobenen Basen sind die Orte für eine mögliche vierte Base, die an den Nichtzielstrang bindet. Wenn nur eines von x, y und z ein G ist und dieses G von einem K gefolgt wird, schließt der Zielort einen einzelnen D-fähigen Teilort ein. Wenn zum Beispiel nur x G ist und a K ist, dann ist der Ort NNG KNy bNz w, wobei der D-fähige Teilort hervorgehoben ist. Wenn beide x und y G sind, aber z nicht G ist, und a und b K sind, dann hat der Zielort zwei überlappende D-fähige Teilorte wie folgt: 5'NNG KNG KNz c3', wobei ein derartiger Ort fett dargestellt ist und der andere kursiv. Wenn alle drei x, y und z G sind und a, b und c sind K, dann schließt das Zielsegment drei D-fähige Teilorte ein, wie folgt 5'NNG KNG KNG K3', wobei die D-fähigen Teilorte fett, kursiv und unterstrichen dargestellt sind.
Die erfindungsgemäßen Verfahren arbeiten daher durch Auswählen eines Zielgens und durch systematische Suche innerhalb der möglichen Teilsequenzen des Gens nach Zielorten, die der Formel 5'NNx aNy bNzc3' entsprechen, wobei jedes (x, a), (y, b) und (z, c) (N, N) oder (G, K) ist; wenigstens eines von (x, a), (y, b) und (z, c) (G, K) ist, und N und K mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind.
In einigen derartigen Verfahren wird jede mögliche Teilsequenz von 10 aufeinanderfolgenden Basen auf jedem Strang eines möglichen Zielgens beurteilt, um zu bestimmen, ob sie der obigen Formel entspricht, und, wenn dies der Fall ist, wie viele D-fähige Teilorte vorhanden sind. Typischerweise wird ein derartiger Vergleich mit dem Computer durchgeführt, und eine Liste von Zielorten, die der Formel entsprechen, wird ausgegeben. Optional können solche Zielorte in verschiedenen Teilsätzen ausgegeben werden, je nach dem, wieviel D-fähige Teilorte vorhanden sind.
In einer Variante identifizieren die erfindungsgemäßen Verfahren erste und zweite Zielsegmente, wobei jedes unabhängig der obigen Formel entspricht. Die zwei Zielsegmente in derartigen Verfahren sind so beschränkt, dass sie im Zielgen benachbart oder nahe beieinander liegend sind (z. B. innerhalb etwa 0–5 Basen). Die Strategie, die der Auswahl von nahe beieinanderliegenden Zielsegmenten zugrundeliegt, ist es, die Konstruktion eines Zinkfingerproteins zu ermöglichen, das durch Bindung von zwei einzelnen Zinkfingerproteinen gebildet wird, die für das erste bzw. zweite Zielsegment spezifisch sind. Diese Prinzipien können zur Auswahl von Zielorten, die an Zinkfingerproteine mit einer beliebigen Anzahl von Einzelfingern binden, erweitert werden. Zum Beispiel hätte ein geeigneter Zielort für ein neunfingeriges Protein drei Einzelsegmente, wobei jedes der obigen Formel entspricht.
Die Zielorte, die durch die obigen Verfahren identifiziert werden, können der Gegenstand einer weiteren Beurteilung nach anderen Kriterien sein oder können direkt zur Konstruktion oder Auswahl (wenn benötigt) und zur Herstellung eines Zinkfingerproteins verwendet werden, das spezifisch für einen derartigen Ort ist. Ein weiteres Kriterium zur Beurteilung möglicher Zielorte ist die Nähe zu bestimmten Regionen innerhalb eines Gens. Wenn ein Zinkfingerprotein selbst zur Repression eines zellulären Gens verwendet werden soll (z. B. ohne das Zinkfingerprotein mit einer Repressionsgruppe zu verbinden), dann scheint die optimale Lage der Ort der Transkriptionsinitiation oder innerhalb von etwa 50 by stromaufwärts oder stromabwärts zu sein, oder alternativ innerhalb eines Enhancerelements, um mit der Bildung des Transkriptionskomplexes zu interferieren (Kim & Pabo, J. Biol. Chem. (1997)) oder um ein essentielles enhancerbindendes Protein zu kompetetieren. Wenn jedoch ein ZFP mit einer funktionellen Domäne wie z. B. der KRAB-Repressordomäne oder der VP16-Aktivatordomäne fusioniert wird, dann ist die Wahl der Lage des Bindungsortes wesentlich flexibler und kann außerhalb der bekannten regulatorischen Regionen sein. Zum Beispiel kann eine KRAB-Domäne die Transkription eines Promotors wenigstens 3 kb entfernt wo KRAB gebunden ist reprimieren. Daher können Zielorte ausgewählt werden, die keine Segmente mit Bedeutung für die Zielgene einschließen oder mit ihnen überlappen, wie zum Beispiel regulatorische Sequenzen oder polymorphe Stellen. Andere Kriterien für die weitere Beurteilung von Zielsegmenten schließen die frühere Verfügbarkeit von Zinkfingerproteinen, die an derartige Segmente oder verwandte Segmente binden und/oder die Leichtigkeit der Konstruktion neuer Zinkfingerproteine, die an ein gegebenes Zielsegment binden, ein. Die Implementierung von derartigen Kriterien im Auswahlverfahren wird in weiteren Einzelheiten unten diskutiert.
Ist einmal ein Zielsegment ausgewählt, dann kann ein Zinkfingerprotein, das an das Segment bindet, durch eine Vielfalt von Vorgehensweisen bereitgestellt werden. Die einfachste Vorgehensweise ist es, ein vorcharakterisiertes Zinkfingerprotein aus einer bestehenden Sammlung bereitszustellen, von dem bekannt ist, dass es an den Zielort bindet. In vielen Fällen jedoch existiert ein derartiges Zinkfingerprotein nicht. Eine alternative Vorgehensweise verwendet Informationen aus einer Datenbank von existierenden Zinkfingerproteinen und Bindungsspezifitäten, um neue Zinkfingerproteine zu konstruieren. Diese Vorgehensweise ist unten ausführlicher beschrieben. Eine weitere Vorgehensweise ist die Konstruktion eines Zinkfingerproteins basierend auf Substitutionsregeln wie oben diskutiert. Noch eine weitere Alternative ist die Auswahl eines Zinkfingerproteins mit einer Spezifität für ein gegebenes Ziel durch ein empirisches Verfahren wie z. B. Phage Display. In einigen derartiger Verfahren wird jeder Einzelfinger eines Zinkfingerproteins unabhängig von anderen Einzelfingern konstruiert oder ausgewählt. Zum Beispiel kann jeder Finger von einem vorher existierenden ZFP erhalten werden. Oder jeder Finger kann Gegenstand einer separaten Randomisierung oder Auswahl sein.
Wurde einmal ein Zinkfingerprotein ausgewählt, konstruiert oder auf andere Weise für ein gegebenes Zielsegment bereitgestellt, wird das Zinkfingerprotein oder die kodierende DNA synthetisiert. Beispielhafte Verfahren zur Synthese und Expression von DNA, die Zinkproteine kodiert, sind unten beschrieben. Das Zinkfingerprotein oder ein Polynukleotid, das es kodiert, kann dann zur Modulation der Expression oder zur Analyse des Zielgens verwendet werden, das den Zielort enthält, an den das Zinkfingerprotein bindet.
2. D-fähige Zinkfingerproteine
Ein Zinkfingerprotein wird als D-fähig beschrieben, wenn es einen Finger enthält, der an die vierte Base von wenigstens einem D-fähigen Teilort binden kann, der die Polynukleotidsequenz 5'NNGK3' ist. Ein bevorzugtes Gerüst zur Konstruktion von D-fähigen Zinkfingern ist die menschliche wildtypische DNA-Bindungsdomäne Sp-1. Das Ziel für den menschlichen Transkriptionsfaktor Sp-1 ist 5'GGG GCG GGG3', und die Finger 1 und 2 dieses Proteins haben ein Arrangement R-1 D+2. Konstruierte ZFPs können mit Sp-1 identisch sein, außer in der Erkennungshelix von jedem der drei Finger, wo die Sequenzen konstruiert sind, um jedes der Tripletts zu erkennen, mit denen sie interagieren. Das ZFP der Maus, Zif268, welches an den Ort GCG TGG GCG bindet, ist ebenso geeignet und hat das Arrangement R-1 D+2 in allen drei Fingern.
Andere Zinkfingerproteine als Quelle von Resten für das Gerüst zur Konstruktion von Zinkfingerproteinen, die fähig zur Bindung an D-fähige Teilorte sind, können von ZFPs aus mehreren alternativen Quellen erhalten oder abgeleitet werden. Zum Beispiel wurde das transkriptionell regulatorische Protein TTK der Taufliege Drosophila melanogaster sowohl in Bezug auf die Sequenzen seiner Erkennungshelices und seines DNA-Ortes gut charakterisiert. Das Protein hat nur zwei Finger und bindet an ein Ziel aus sechs Basen, also interagiert Finger 2 mit dem ersten DNA-Triplett und Finger 1 erkennt das zweite Triplett des Ortes. Der Ort ist 5'AAG GAT3' mit einem D-fähigen Teilort des Typs GG, der an der Verbindung des ersten und zweiten Tripletts gelegen ist, und Finger 2 hat die Sequenz R-1 D+2. Andere geeignete ZFPs werden im einzelligen Eukaryoten Saccharomyces cerevisiae gefunden. Es ist bekannt, dass das ADR-Genprodukt die Expression des ADH-Gens durch Bindung innerhalb des ADH-Promotors reguliert. Wie oben für TTK beschrieben, hat die ZFP-bindende Domäne von ADR zwei Finger und bindet an ein Ziel aus sechs Basen, TTGGAG. Die Erkennungshelix von Finger 2 hat die Sequenz R-1 D+2, die zur Bindung eines ZFPs an einen Zielort mit einem D-fähigen Teilort geeignet ist.
IV. Auswahl von Zielorten durch Korrespondenzregeln
Die Erfindung stellt weiterhin zusätzliche Verfahren zum Auswählen eines Zielortes aus einem Zielgen bereit. Diese Verfahren basieren teilweise auf der Erkenntnis, dass verschiedene dreibasige Teilorte (Tripletts), die an einzelne Finger gebunden sind, in unterschiedlichem Maße zur Konstruktion von Zinkfingerproteinen erwünscht sind, dass diese verschiedenen Erwünschtheiten als numerische Werte ausgedrückt werden können und dass die numerischen Werte für die drei einzelnen Tripletts umfassend einen Zielort zu einem gesamten Score für den Zielort kombiniert werden können. Die relativen Vorzüge verschiedener Zielorte können durch ihre relativen Scores verglichen werden.
Die Verfahren arbeiten durch Bereitstellung einer Polynukleotidsequenz, typischerweise eines Gens oder einer cDNA, innerhalb derer die Auswahl eines Zielortes zur Detektion oder Modulation durch ein ZFP gewünscht wird. In der Praxis stellt man typischerweise zwei Sequenzen für zwei Stränge einer Polynukleotidsequenz bereit, aber zur Vereinfachung wird das Verfahren für eine einzelne Polynukleotidsequenz dargestellt. Aus einer solchen Polynukleotidsequenz wird ein möglicher Zielort von wenigstens 9 Basen umfassend aufeinanderfolgende erste, zweite und dritte Basentripletts ausgewählt. Die Tripletts folgen derartig aufeinander, dass das erste Triplett Basen 7–9 besetzt, das zweite Triplett die Basen 4–6 und das dritte Triplett Basen 1–3 eines Ortes, wobei Base 1 in der 5'-3' Orientierung als Base 1 bezeichnet wird. Diese Bezeichnung der Tripletts als erste, zweite und dritte ist willkürlich und könnte umgekehrt werden. Durch die Bezeichnung des ersten Tripletts als besetzend die Basen 7–9, des zweiten Tripletts als besetzend die Basen 4–6 und des dritten Tripletts als besetzend die Basen 1–3 jedoch binden der erste, zweite und dritte Finger eines dreifingerigen ZFPs in einer Orientierung von N- nach C-terminal an das erste, zweite und dritte Triplett eines Zielortes. Andersherum gesehen ist der erste, zweite und dritte Finger eines Zinkfingerproteins von N-terminal nach C-terminal geordnet und ist jeweils für das erste, zweite und dritte Triplett eines Zielortes in der 3'-5'-Orientierung geordnet spezifisch.
Ein Teilscore wird dann für jedes Triplett aus Korrespondenzregeln zwischen Tripletts und entsprechenden Positionen innerhalb eines Zielortes bestimmt. Beispielhafte Korrespondenzregeln werden in Tabelle 1 bereitgestellt. Die Korrespondenzregeln sind eine Matrix, die drei Werte für jedes Triplett an seinen drei möglichen Positionen innerhalb eines neunbasigen Zielortes bereitstellt. Die Tabelle stellt drei Werte für jedes der 64 möglichen Tripletts bereit. Betrachte zum Beispiel einen möglichen Zielort 5'AAA AAG AAC3'. Das AAC-Triplett tritt an der ersten Position (Basen 7–9) des Zielortes auf, und ihm wird ein Teilscore von 1 aus Tabelle 1 zugewiesen. Das AAG-Triplett tritt an der zweiten Position des Zielortes (Basen 4–6) auf, und ihm wird ein Teilscore von 8 zugewiesen. Das AAA-Triplett tritt an der dritten Position des Zielortes (Basen 1–3) auf, und ihm wird ein Teilscore von 8 zugewiesen. Die Teilscores der drei Tripletts am möglichen Zielort werden dann kombiniert, z. B. durch Multiplikation oder Addition oder einer anderen Funktion. Zum Beispiel ergibt die Multiplikation der drei Teilscores der Tripletts einen kombinierten Score von 1 × 8 × 8 = 64.
Das Verfahren wird für einen zweiten möglichen Zielort wiederholt. Teilscores werden für jedes der drei Einzeltripletts des zweiten möglichen Zielortes bestimmt, und ein kombinierter Score wird für den zweiten möglichen Zielort berechnet. Das Verfahren kann dann für weitere mögliche Zielorte wiederholt werden. Optional kann das Verfahren für jede mögliche aufeinanderfolgende Teilsequenz von wenigstens 9 Basen in jedem Strang eines Zielgens, das von Interesse ist, wiederholt werden. Wenn die Scores aller möglichen Zielorte, die von Interesse sind, bestimmt sind, werden die Scores verglichen. Im allgemeinen deutet ein hoher Score auf Erwünschtheit eines Zielortes zur Konstruktion eines ZFPs. Ein oder mehrere der identifizierten Zielorte mit hohen Scores können zusammen mit dem Score ausgegeben werden.
Die Bezeichnungen von Werten in den Korrespondenzregeln können beliebige Kriterien wiedergeben, durch die ein Teilort aus Tripletts stärker als andere für die Konstruktion oder Auswahl eines Zinkfingerproteins erwünscht ist. Die Werte der beispielhaften Korrespondenzregeln in Tabelle 1 geben das Vorhandensein von früher charaktiersierten ZFPs wieder, von denen bekannt ist, dass sie an ein gegebenes Nukleotidtriplett binden. Wenn für ein gegebenes Triplett an einer gegebenen Position eines Zielortes ein oder mehrere früher charakterisierte ZFPs existieren, die spezifisch an ein Zielsegment einschließend das Triplett an der gegebenen Position binden, dann wird der Kombination des Tripletts und der gegebenen Position ein Score von 10 zugewiesen. Wenn es für ein gegebenes Triplett an einer gegebenen Position kein früher charakterisiertes ZFPs gibt, das spezifisch an den Zielort einschließend das Triplett an der gegebenen Position bindet, aber wenn es ein oder mehrere früher charakterisierte ZFPs gibt, die spezifisch an das Triplett an einer anderen Position binden, dann wird dem Triplett ein Score von 8 zugewiesen. Wenn es für ein gegebenes Triplett und eine gegebene Position keine früher charakterisierten ZFPs gibt, die das Triplett entweder an der gegebenen Position oder einer anderen Position binden, wird dem Triplett und der Position ein Wert von 1 zugewiesen.
Die Werte 10, 8 und 1 sind lediglich illustrativ, und andere Werte können verwendet werden. Darüber hinaus kann eine verfeinerte Zuweisung von Werte verwendet werden, die neben anderen Faktoren ebenso verschiedene Bindungsaffinitäten, Spezifitäten und die Anwesenheit von D-fähigen Orten berücksichtigt. In einem derartigen Schema werden Kombinationen von Tripletts und Positionen, für die ältere ZFPs mit starken Bindungsaffinitäten existieren, typischerweise höhere Werte gegeben als Kombinationen von Triplett und Positionen, für die es ältere ZFPs mit niedrigeren Bindungsaffinitäten gibt.
Die Auswahl möglicher Zielorte innerhalb einer größeren Sequenz und Berechnung von Scores wird typischerweise mit einem geeignet programmierten Computer durchgeführt, der einen oder mehrere mögliche Zielorte) mit ihren Scores) ausgibt. Optional kann eine Eingabe an einen derartigen Computer durch den Benutzer bereitgestellt werden, wie viele mögliche Zielorte ausgegeben werden sollen. Zum Beispiel kann der Benutzer eine Ausgabe von n möglichen Zielorten mit den höchsten Scores wählen, wobei n im Ermessen des Benutzers liegt. Der Benutzer kann also einen Schwellenscore spezifizieren, der für einen möglichen Zielort erreicht oder überschritten werden muss, damit er ausgegeben wird.
In einer Variante des obigen Verfahrens kann ein möglicher Zielort basierend sowohl auf Werten in einer Korrespondenztabelle und auf der Anwesenheit von einem oder mehreren D-fähigen Teilorten beurteilt werden. Dies wird durch Benutzereingabe eines Kontextparameters erreicht, um einen skalierten Score für eine oder mehrere Kombinationen eines Tripletts und einer bestimmten Position bereitzustellen, wenn der Kontext des Tripletts die Anwesenheit eines D-fähigen Teilortes anzeigt. Zum Beispiel stellt ein Triplett 5'NNG3' gefolgt von einem A keinen D-fähigen Teilort bereit. Jedoch stellt 5'NNG3' gefolgt von einem K einen D-fähigen Ort bereit. Der Benutzer kann wählen, einen Kontextparameter einzugeben, der den Wert des Teilscores für das 5'NNG3'-Triplett erhöht, wenn 5'NNG3' von einem K gefolgt wird. Der skalierte Teilscore für dieses Triplett wird dann mit Teilscores oder skalierten Teilscores für andere Tripletts kombiniert, um Gesamtscores für einen möglichen Zielort zu erhalten.
In einer weiteren Variante wird ein Computer, der die obige Analyse durchführen soll, programmiert, um bestimmte Zielsegmente, die hohe Scores in Paaren erhalten und die durch ihre physikalische Nähe zueinander bestimmt sind, auszugeben. Gepaarte Zielsegmente, von denen beide hohe Scores erhalten, die innerhalb von ungefähr fünf Basen voneinander getrennt auftreten, sind geeignete Ziele für die Konstruktion von sechsfingerigen Zinkproteinen, die durch Verbindung von zwei Einzelzinkfingerproteinen gebildet werden, wobei jedes drei Finger hat.
Mögliche Zielorte, die durch die obigen Verfahren identifiziert werden, können Gegenstand einer weiteren Beurteilung sein oder können direkt zur Konstruktion oder Auswahl (wenn notwendig) und Herstellung von Zinkfingerproteinen verwendet werden. Zinkfingerproteine können für solche Zielorte durch Verwenden derselben Verfahren konstruiert und synthetisiert werden, die für mögliche Zielsegmente beschrieben sind, die D-fähige Teilorte wie oben beschrieben enthalten.
V. Konstruktion von ZFPs mit Datenbanken
Die Erfindung stellt Verfahren zur Konstruktion von ZFPs für einen vorausgewählten Zielort bereit. Diese Verfahren sind zur Verwendung in Verbindung mit den Verfahren zur Auswahl eines Zielortes wie oben beschrieben oder mit anderen Verfahren zur Auswahl eines Zielortes geeignet.
Beim Konstruieren eines neuen ZFPs ist es generell vorteilhaft, Informationen zu nutzen, die vorcharakterisierten ZFPs und ihren Zielorten inherent sind und dadurch den Bedarf von einer de novo-Konstruktion oder -Auswahl zu minimieren. Wie bei der Auswahl eines Zielortes sind verschiedene Faktoren in dieses Verfahren involviert. Eine Konstruktion wird erleichtert, wenn für jeden Triplett-Teilort eines Zielortes die Finger nicht nur in existierenden ZFPs verfügbar sind, sondern derartige Finger ebenso ihre entsprechenden Triplett-Teilorte an derselben Stelle in existierenden Proteinen wie im vorgeschlagenden Konstrukt kontaktieren. Betrachte zum Beispiel drei existierende Paare von ZFPs und Zielorten: 5'GCG TGG GAC3', gebunden durch ein ZFP mit Fingern F1-F2-F3 (wobei F3 mit GCG interagiert, F2 mit TGG und F1 mit GAC), 5'AAG GAG GTG3', gebunden durch ein ZFP mit Fingern F4-F5-F6 und 5'CCG TGA GCA3', gebunden durch ein ZFP mit Fingern F7-F8-F9 und einen Zielort 5'GCG GAG GCA3', für den ein ZFP konstruiert werden soll. In dieser Situation bindet das neue Protein F7-F5-F3 an 5'GCG GAG GCA3', wobei jeder Finger des neuen Proteins an derselben relativen Position im neuen Protein auftritt wie in den Datenbank-Proteinen, aus denen es abgeleitet wurde. Diese Konstruktion ist vorteilhaft, weil die analoge Umgebung jedes Fingers im neuen ZFP im Vergleich zu derjenigen seines Vorläufer-ZFPs bedeutet, dass der Finger des neuen ZFPs wahrscheinlich mit ähnlicher Spezifität und Affinität bindet wie der der Mutter. Daher gilt wahrscheinlich die generelle Regel, dass die Bindungscharakteristik eines Zinkfingerproteins die Summe seiner Einzelfinger ist.
Neue Zinkfingerproteine können ebenso aus Einzelfingern konstruiert werden, die in existierenden Proteinen verfügbar sind, aber nicht an denselben Positionen wie im Protein, das konstruiert werden soll. Zum Beispiel kann das Protein F3-F7-F5 unter Verwendung des Satzes existierender Paare von ZFP-Orten wie oben beschrieben konstruiert werden, um an die Sequenz 5'GAG GCA GCG3' zu binden. Im neuen Protein besetzen die Finger andere Position als in ihren entsprechenden Mutterproteinen. Obwohl ein gegebener Finger näherungsweise seine Triplettspezifität und -affnität ungeachtet der Position, die er in einem ZFP besetzt, behält, bewirken in der Praxis mit größerer Wahrscheinlichkeit kontextabhängige Effekte Veränderungen der Spezifität und/oder der Affinität eines Fingers für seinen Triplett-Teilort, wenn der Finger unterschiedliche Positionen in unterschiedlichen Zinkfingerproteinen besetzt. Daher ist die Spezifität oder Affinität manchmal verschieden (typischerweise niedriger) als erwartet, obwohl ZFPs, die aus Einzelfingern gebildet werden und die andere Positionen besetzen als in früher charakterisierten ZFPs, typischerweise noch an den Ort binden.
Schließlich können komplett neue Finger unter Verwendung von regelbasierten Vorgehensweisen oder Phage-Display für vorausgewählte Zielorte, die ein Triplett einschließen und für das kein vorexistierender Finger verfügbar ist, konstruiert oder ausgewählt werden.
Die Erfindung stellt Verfahren bereit, die systematisch eine Datenbank verwenden, die Information über existierende ZFPs zur Konstruktion von neuen ZFPs für einen vorausgewählten Zielort entsprechend den oben beschriebenen Prinzipien enthält. Die Organisation einer typischen Datenbank ist in Tabelle 9 gezeigt. Die Datenbank schließt typischerweise Bezeichnungen für jedes einer Sammlung von vorcharakterisierten ZFPs ein. Die ZFPs können natürliche ZFPs oder davon abweichende ZFPs sein. Die Bezeichnung kann zum Beispiel der Name oder ein Symbol sein, das jedes ZFP repräsentiert. Die Datenbank schließt ebenso Unterbezeichnungen für jeden der Finger in einem ZFP ein. Typischerweise sind die Unterbezeichnungen in Form von Aminosäureresten, die ausgewählte Positionen in einem Finger oder Fingern besetzen. Zum Beispiel sind in Tabelle 9 die Unterbezeichnungen die Aminosäuren, die die Positionen –1 bis +6 entsprechend der konventionellen Numerierung besetzen. Die Datenbank schließt weiterhin ein Segment einer Zielnukleinsäure ein, das durch jedes Zinkfingerprotein gebunden wird. Das Nukleinsäuresegment schließt normalerweise drei dreibasige Tripletts ein. Die drei Basentripletts können verbunden als eine Sequenz oder als separate Sequenzen eingeschlossen sein. Wenn Basen in einem neunbasigen Zielort fortlaufend vom 5'-Ende numeriert werden, besetzt ein erstes Triplett die Basen 7–9, ein zweites Triplett besetzt die Basen 4–6 und ein drittes Triplett besetzt die Basen 1–3. Entsprechend dieser Bezeichnung der Triplettposition innerhalb eines Zielsegments bindet der erste Finger eines Zinkfingerproteins (z. B. am dichtesten am N-Terminus) an das erste Triplett, der zweite Finger an das zweite Triplett und der dritte Finger an das dritte Triplett. Die Datenbank kann ebenso zusätzliche Informationen einschließen wie zum Beispiel die Bindungsaffinität oder die Dissoziationskonstante eines ZFPs für seinen Zielort, obwohl dies nicht wesentlich ist.
Ein Zielort wird für die Konstruktion eines Zinkfingerproteins unter Verwendung einer Datenbank bereitgestellt. In einigen Verfahren wird der Zielort durch Benutzereingabe bereitgestellt. In anderen Verfahren wird der Zielort als Ausgabe eines beliebigen der oben beschriebenen Verfahren zur Auswahl eines Zielortes bereitgestellt. Der Zielort umfasst typischerweise wenigstens 9 Basen, die wenigstens drei Tripletts bilden. Die drei einzelnen Tripletts werden als erste, zweite bzw. dritte Tripletts konstruiert, die die Basen 7–9, 4–6 und 1–3 des Zielortes besetzen, wobei der 5'-Base die Base 1 zugewiesen wird. Für das erste Triplett im Zielort, durchsucht der Computer die Datenbank nach Zinkfingerprotein(en) enthaltend Finger, die an das Triplett binden. Der Computer speichert Datensätze, die sich auf dabei identifizierte Zinkfingerproteine) beziehen, und ihre(n) Finger, die/der an das erste Triplett binden/bindet. Optional unterscheidet der Computer zwischen Zinkfingerproteinen enthaltend einen Finger, der an das erste Triplett des Zielortes an der ersten Fingerposition und an anderen Positionen bindet. In diesem Falle speichert der Computer die beiden Teilsätze von Zinkfingerprotein(en) als getrennte Datensätze. Das Verfahren wird dann für das zweite Triplett des Zielortes wiederholt. Der Computer identifiziert Zinkfingerproteine) enthaltend einen Finger, der spezifisch an das zweite Triplett bindet. Optional unterscheidet der Computer zwischen Zinkfinger(n), die an das zweite Triplett an der zweiten Position eines existierenden Zinkfingerproteins oder an einer anderen Position binden. Schließlich identifiziert der Computer Zinkfingerproteine) enthaltend einen Finger der spezifisch an das dritte Triplett des Zielortes bindet. Optional unterscheidet der Computer zwischen Zinkfinger(n), die an das dritte Triplett an der dritten Position eines existierenden Zinkfingerproteins oder an einer anderen Position binden. Der Computer gibt Bezeichnungen für die ZFPs aus, die identifiziert wurden und Unterbezeichnungen der Finger, die an das erste, zweite und dritte Triplett binden, nachdem er nach ZFPs gesucht hat, die an jedes der ersten, zweiten und dritten Tripletts im Zielsegment binden. Optional gibt der Computer getrennt einen Teilsatz von ZFPs aus, die an das erste Triplett der ersten Fingerposition binden und einen Teilsatz von ZFPs, die an das erste Triplett anderer Positionen binden und entsprechende Teilsätze von ZFPs, die an das zweite Triplett der zweiten Fingerposition und anderer Positionen binden und von ZFPs, die an das dritte Triplett der dritten Fingerposition und anderer Positionen binden.
Die Ausgabe der Informationen durch den Computer kann zur Konstruktion und Synthese neuer Zinkfingerproteine verwendet werden, die an ein vorbestimmtes Ziel binden. Wenn zum Beispiel die Ausgabe ein ZFP1 mit einem Finger X einschließt, der das erste Triplett des Ziels bindet, ein ZFP2, das einen Finger Y einschließt, der an das zweite Triplett des Ziels bindet, und ein ZFP3, das einen Finger Z einschließt, der an das dritte Triplett des Ziels bindet, kann ein neues ZFP synthetisiert werden umfassend die Finger XYZ in dieser Reihenfolge (N-terminal bis C-terminal). Wenn der Computer mehrere verschiedene Zinkfingerproteine ausgibt, die mehrere verschiedene Finger enthalten, die an ein gegebenes Triplett binden, kann der Benutzer zwischen den Fingern abhängig davon auswählen, ob ein Finger an eine bestimmte Triplettposition mit derselben Position im Datenbankprotein wie im ZFP bindet, das konstruiert werden soll. Zum Beispiel wird ein ZFP1, das Finger XYZ enthält, in dem X an ein erstes Triplett eines Zielortes bindet, generell gegenüber einem ZFP2 bevorzugt, das Finger ABC enthält, in dem Finger C an das erste Triplett eines Zielortes bindet. Daher würde man typischerweise Finger X anstatt C verwenden, um die erste Fingerposition in einem ZFP zu besetzen, das konstruiert werden soll, um ein Zielsegment zu binden. Oft identifiziert das Computerprogramm zwei ZFPs, jedes enthaltend einen Finger, der an ein bestimmtes Triplett bindet, und in jedem ZFP besetzt der Finger dieselbe Position im Datenbankprotein, von dem es abgeleitet ist wie im intendierten ZFP-Konstrukt. In derartigen Fällen wählt man oft zwischen den beiden Fingern aufgrund der Bindungsaffinität für ihre entsprechenden Ziele, wobei eine höhere Bindungsaffinität bevorzugt wird. Optional gibt der Computer ebenso vorgeschlagene Aminosäuresubstitutionen für einen oder mehrere Finger für die entsprechenden Triplett(s) aus, die von dem (den) Finger(n) gebunden werden.
Obwohl eine Datenbankanalyse zunächst für vorcharakterisierte Zinkfingerproteine mit drei Fingern dargestellt ist, können derartige Datenbanken alternativ oder zusätzlich Informationen speichern, die Zinkfingerproteine mit einer kleineren oder größeren Zahl von Fingern betreffen. Ebenso können derartige Datenbanken zur Konstruktion von Zinkfingerproteinen mit mehr oder weniger als drei Fingern verwendet werden. Einige erfindungsgemäße Datenbanken speichern zum Beispiel Informationen, die ZFPs mit nur zwei Fingern betreffen als auch oder anstatt von Informationen, die ZFPs mit drei Fingern betreffen. ZFPs mit nur zwei Fingern haben entsprechende Zielorte mit nur zwei Tripletts. Die Informationen, die sich auf zweifingerige ZFPs beziehen, können zur Konstruktion von dreifingerigen ZFPs, die an neunbasige Zielorte binden, auf im wesentlichen dieselbe Weise wie oben beschrieben verwendet werden. Jedoch gibt es keine exakte Entsprechung der relativen Positionen von zwei Fingern in einem zweifingerigen Protein zu den relativen Positionen von drei Fingern in einem dreifingerigen Zinkfingerprotein. Dieser Punkt kann auf zwei Weisen behandelt werden. Erstens können alle Finger in einem zweifingerigen Protein tatsächlich so behandelt werden, dass sie unterschiedliche Positionen als Finger eines dreifingerigen Proteins besetzen. Wenn folglich ein zweifingeriges Protein einen Finger enthält, der an ein gegebenes Triplett bindet, gibt der Computer diese Information aus und zeigt an, dass der Finger nicht an derselben Position des zweifingerigen Proteins aus der Datenbank auftritt wie im dreifingerigen Protein, das konstruiert werden soll. Alternativ kann der erste (N-terminale) Finger eines zweifingerigen Proteins als das Äquivalent von entweder dem ersten oder zweiten Finger eines dreifingerigen Proteins betrachtet werden. Der zweite Finger eines zweifingerigen Proteins kann als das Äquivalent von entweder dem zweiten oder dritten Finger eines dreifingerigen Proteins betrachtet werden. Wenn folglich der Computer ein zweifingeriges Protein mit einem ersten (N-terminalen) Finger bindend an ein erstes Triplett eines Zielortes identifiziert, für den ein Zinkfingerprotein konstruiert werden soll, kann der Computer ausgeben, dass das zweifingerige Protein einen geeigneten Finger bereitstellt und an derselben Position im Datenbankprotein wie im dreifingerigen Protein, das konstruiert werden soll.
VII. Herstellung von ZFPs
ZFP-Polypeptide und Nukleinsäuren, die diese kodieren, können mit Routinetechniken aus dem Gebiet der rekombinanten Genetik gemacht werden. Basistexte, die die allgemeinen Verfahren einschließen, die in dieser Erfindung verwendet werden, schließen Sambrook et al., Molecular Cloning, A Laboratory Manual (2. Aufl. 1989); Kriegler, Gene Transfer and Expression: A Laboratory Manual (1990); und Current Protocols in Molecular Biology (Ausubel et al., Hrsg., 1994) ein. Desweiteren können Nukleinsäuren mit weniger als etwa 100 Basen gewöhnlich bei vielen kommerziellen Quellen bestellt werden, wie z. B. bei The Midland Certified Reagent Company (mcrc@oligos.com), The Great American Gene Company (http://www.genco.com), ExpressGen Inc. (www.expressgen.com), Operon Technologies Inc. (Alameda, CA). Ähnlich können Peptide gewöhnlich bei vielen Quellen bestellt werden, wie z. B. bei PeptidoGenic (pkim@ccnet.com), HTI Bio-products Inc. (http://www.htibio.com), BMA Biomedicals Ltd (U.K.), Bio.Synthesis Inc.
Oligonukleotide können entsprechend dem Festphasen-Phosphoramidit-Triestervertahren chemisch synthetisiert werden, das zuerst von Beaucage & Caruthers, Tetrahedron Letts. 22: 1859–1862 (1981) beschrieben wurde und einen automatischen Synthesizer verwendet, wie in Van Devanter et al., Nucleic Acids Res. 12: 6159–6168 (1984) beschrieben. Oligonukleotide werden entweder durch denaturierende Polyacrylamidgelelektrophorese oder Phasenumkehr-HPLC gereinigt. Die Sequenzen des klonierten Gens und synthetischer Oligonukleotide können nach Klonieren unter Verwendung von z. B. dem Kettenabbruchverfahren zum Sequenzieren von doppelsträngigen Templates nach Wallace et al., Gene 16: 21–26 (1981) verifiziert werden.
Zwei alternative Verfahren werden typischerweise verwendet, um die kodierenden Sequenzen zu schaffen, die zur Expression neu konstruierter DNA-bindender Peptide benötigt werden. Ein Protokoll ist ein PCR-basiertes Verfahren zum Zusammenfügen, das sechs überlappende Oligonukleotide verwendet (3). Drei Oligonukleotide (Oligos 1, 3 und 5 in 3) entsprechen "universellen" Sequenzen, die Teile der DNA-bindenden Domäne zwischen den Erkennungshelices kodieren. Diese Oligonukleotide bleiben typischerweise für alle Zinkfingerkonstrukte konstant. Die anderen drei "spezifischen" Oligonukleotide (Oligos 2, 4 und 6 in 3) sind zur Kodierung der Erkennungshelices konstruiert. Diese Oligonukleotide enthalten Substitutionen in erster Linie an den Positionen –1, 2, 3 und 6 auf den Erkennungshelices und machen sie für jede der verschiedenen DNA-bindenden Domänen spezifisch.
Die PCR-Synthese wird in zwei Schritten durchgeführt. Zuerst wird ein doppelsträngiges DNA-Template durch Kombinieren von sechs Oligonukleotiden (drei universell, drei spezifisch) in einer vierzyklischen PCR-Reaktion mit einem Zusammenlagerungsschritt bei niedriger Temperatur geschaffen, wobei sich die Oligonukleotide zusammenlagern, um ein DNA-"Gerüst" zu bilden. Die Lücken im Gerüst werden durch eine thermostabile High-Fidelity-Polymerase gefüllt, die Kombination von Taq- und Pfu-Polymerasen genügt ebenfalls. In der zweiten Phase der Konstruktion wird das Zinkfinger-Template durch externe Primer amplifiziert, die so konstruiert sind, dass sie Restriktionsstellen an jedem Ende zur Klonierung in einen Shuttlevektor oder direkt in einen Expressionsvektor haben.
Ein alternatives Verfahren zum Klonieren von neukonstruierten DNA-bindenden Proteinen basiert auf der Zusammenlagerung komplementärer Oligonukleotide, die spezifische Regionen des gewünschten ZFPs kodieren. Diese besondere Anwendung benötigt Oligonukleotide, die vor dem letzten Ligationsschritt phosphoryliert sind. Dies wird normalerweise vor dem Ansetzen der Zusammenlagerungsreaktionen durchgeführt. In Kürze, die "universellen" Oligonukleotide, die die konstanten Regionen des Proteins kodieren (Oligos 1, 2 und 3 von oben), werden mit ihren komplementären Oligonukleotiden zusammengelagert. Zusätzlich werden die "spezifischen" Oligonukleotide, die die Erkennungshelices der Finger kodieren, mit ihren entsprechenden komplementären Oligonukleotiden zusammengelagert. Diese komplementären Oligos werden so konstruiert, dass sie die Region füllen, die vorher mit der Polymerase im oben erwähnten Protokoll gefüllt wurde. Die komplementären Oligos zu den herkömmlichen Oligos 1 und Finger 3 sind so konstruiert, dass sie überhängende Sequenzen belassen, die spezifisch für die Restriktionsstellen sind, die beim Klonieren in den Vektor der Wahl im folgenden Schritt verwendet werden. Das zweite Protokoll zum Zusammenfügen unterscheidet sich vom ursprünglichen Protokoll durch die folgenden Aspekte: Das "Gerüst", das das neukonstruierte ZFP kodiert, ist vollkommen aus synthetischer DNA zusammengesetzt und eliminiert dabei den Auffüllungsschritt mit Polymerase, zusätzlich braucht das in den Vektor zu klonierende Fragment keine Amplifikation. Schließlich eliminiert die Konstruktion von verbleibenden sequenzspezifischen Überhängen die Notwendigkeit eines Restriktionsenzymverdaus des inserierten Fragments. Alternativ können Veränderungen der Erkennungshelices unter Verwendung konventioneller ortsgerichteter Mutageneseverfahren geschaffen werden.
In beiden Verfahren zum Zusammenfügen muss das resultierende Fragment, das das neu konstruierte ZFP kodiert, in einen Vektor ligiert werden. Zuletzt wird die ZFP-kodierende Sequenz in einen Expressionsvektor kloniert. Allgemein verwendete Expressionsvektoren schließen einen modifizierten bakteriellen pMAL-c2 Expressionsvektor (New England BioLabs) oder einen eukaryotischen Expressionsvektor pcDNA (Promega) ein, aber sind nicht darauf begrenzt. Die Endkonstrukte werden durch Sequenzanalyse verifiziert.
Jedes geeignete Verfahren zur Proteinreinigung, das dem Fachmann bekannt ist, kann zum Reinigen von erfindungsgemäßen ZFPs verwendet werden (siehe Ausubel, supra, Sambrook, supra). Desweiteren kann jeder geeignete Wirt zur Expression verwendet werden, z. B. Bakterienzellen, Insektenzellen, Hefezellen, Säugerzellen und dergleichen.
Die Expression eines mit einem maltosebindenden Protein fusionierten Zinkfingerproteins (MBP-ZFP) im Bakterienstamm JM109 ermöglicht die direkte Reinigung mit einer Amylosesäule (NEB). Hohe Expressionsspiegel des chimären Zinkfingerproteins können durch Induktion mit IPTG erhalten werden, da die MBP-ZFP-Fusion im pMal-c2 Expressionsplasmid unter der Kontrolle des tac-Promotors ist (NEB). Ein 2xYT-Medium enthaltend 10 μM ZnCl₂, 0,02% Glukose plus 50 μg/ml Ampicillin wird mit Bakterien angeimpft, die MBP-ZFP-Fusionsplasmide enthalten, und bei 37°C geschüttelt. Mitten im exponentiellen Wachstum werden 0,3 mM IPTG hinzugefügt, und die Kulturen werden geschüttelt. Nach 3 Stunden werden die Bakterien durch Zentrifugation geerntet, durch Ultraschall oder durch Passage durch eine Frenchpress-Zelle oder durch die Verwendung von Lysozym aufgebrochen, und unlösliches Material wird durch Zentrifugation entfernt. Die MBP-ZFP-Proteine werden auf einem amylosebindenden Harz festgehalten, ausgiebig mit Puffer enthaltend 20 mM Tris-HCl (pH 7,5), 200 mM NaCl, 5 mM DTT und 50 μM ZnCl₂ gewaschen, dann mit Maltose in im wesentlichen gleichem Puffer eluiert (die Reinigung basiert auf einem Standardprotokoll von NEB). Gereinigte Proteine werden quantifiziert und für die biochemische Analyse gelagert.
Die Dissoziationskonstanten der gereinigten Proteine, z. B. Kds, werden typischerweise durch elektrophoretische Mobilitätsverschiebungstests (electrophoretic mobility shift assays, EMSA) charakterisiert (Buratowski & Chodosh, in Current Protocols in Molecular Biology, Seiten 12.2.1–12.2.7 (Hrsg. Ausubel, 1996)). Die Affinität wird durch Titration von gereinigtem Protein gegen eine feste Menge von markiertem doppelsträngigen Oligonukleotidziel gemessen. Das Ziel umfasst typischerweise die natürliche Sequenz der Bindungsstelle flankiert von den 3 bp, die in der natürlichen Sequenz gefunden werden und zusätzlichen konstanten flankierenden Sequenzen. Die natürliche Bindungstelle besteht typischerweise aus 9 bp für ein dreifingeriges Protein und 2 × 9 bp + dazwischenliegende Basen für ein sechsfingeriges ZFP. Die zusammengelagerten Oligonukleotidziele besitzen einen einbasigen 5'-Überhang, der die effiziente Markierung des Ziels mit Polynukleotidkinase des T4-Phagen erlaubt. Für den Test wird das Ziel in einer Konzentration von 1 nM oder niedriger hinzugegeben (die tatsächliche Konzentration wird wenigstens zehnmal niedriger gehalten als die erwartete Dissoziationskonstante), gereinigte ZFPs werden in verschiedenen Konzentrationen hinzugegeben, und man lässt die Reaktion für wenigstens 45 min equilibrieren. Desweiteren enthält die Reaktionsmischung ebenso 10 mM Tris (pH 7,5), 100 mM KCl, 1 mM MgCl₂, 0,1 mM ZnCl₂, 5 mM DTT, 10% Glycerin, 0,02% BSA. (NB: in früheren Tests wurde ebenso 10–100 μg/μl poly d(IC) hinzugegeben.)
Die equilibrierten Reaktionen wurden auf ein 10%iges Polyacrylamidgel gebracht, welches für 45 min in Tris/Glycinpuffer vorgelaufen war, dann wurde gebundenes und ungebundenes markiertes Ziel durch Elektrophorese bei 150V analysiert. (Alternatively können 10–20%ige Gradienten-Tris-HCl-Gele verwendet werden, die ein 4%iges Polyacrylamidsammelgel enthalten). Die getrockneten Gele werden durch Autoradiographie oder durch Phosphorimaging sichtbar gemacht, und der scheinbare Kd wird bestimmt, indem die Proteinkonzentration berechnet wird, die eine halbmaximale Bindung ergibt.
Die Tests können ebenso Bestimmen der aktiven Fraktionen in den Proteinpräparationen einschließen. Aktive Fraktionen werden durch stöchiometrische Gelverschiebungen bestimmt, wobei Proteine gegen einen hohe Konzentration von Ziel-DNA titriert werden. Titrationen werden bei 100, 50 und 25% des Ziels durchgeführt (normalerweise bei mikromolaren Spiegeln).
IX. Anwendungen der konstruierten ZFPs
ZFPs, die an ein bestimmtes Zielgen binden, und die Nukleinsäuren kodierend dieselben können für eine Anzahl von Anwendungen verwendet werden. Diese Anwendungen schließen therapeutische Verfahren ein, in denen ein ZFP oder eine Nukleinsäure, die es kodiert, einem Patienten verabreicht wird und verwendet wird, um die Expression eines Zielgens in dem Patienten zu modulieren (siehe parallele Anmeldung Townsend & Townsend & Crew, Aktenzeichen 019496-002200, eingereicht am 12. Januar 1998). Die Modulation kann eine Repression sein, wenn z. B. das Zielgen in einem pathologischen infektiösen Mikroorganismus sitzt, oder ein endogenes Gen des Patienten kann moduliert werden, wie z. B. ein Onkogen oder ein viraler Rezeptor, der zum Krankheitszustand beiträgt. Alternativ kann die Modulation eine Aktivierung sein, wenn eine Aktivierung der Expression oder erhöhte Expression eines endogenen zellulären Gens den Krankheitszustand verbessern kann. Für solche Anwendungen werden ZFPs, oder typischer Nukleinsäuren kodierend dieselben, mit einem pharmazeutisch akzeptablen Träger als eine pharmazeutische Zusammensetzung formuliert.
Pharmazeutisch akzeptable Träger werden teilweise durch die bestimmte Zusammensetzung, die verabreicht wird, bestimmt, als auch durch das bestimmte Verfahren zum Verabreichen der Zusammensetzung. (Siehe z. B. Remington's Pharmaceutical Sciences, siebzehnte Auflage 1985)). Die ZFPs, allein oder in Kombination mit anderen geeigneten Bestandteilen, können in eine Aerosolzubereitung (d.h. sie kann "vernebelt" werden) zum Verabreichen durch Inhalation gebracht werden. Aerosolzubereitungen können unter Druck in akzeptable Treibmittel gebracht werden, wie z. B. Dichlordifluormethan, Propan, Stickstoff und dergleichen. Zubereitungen geeignet zum parenteralen Verabreichen wie zum Beispiel über intravenöse, intramuskuläre, intradermale und subkutane Wege, schließen wässerige und nichtwässerige isotonische sterile Injektionslösungen ein, die Antioxidantien, Puffer, Bakteriostatika und gelöste Stoffe enthalten können, die die Zubereitung isotonisch mit dem Blut des gedachten Empfängers machen, und wässerige und nichtwässerige sterile Suspensionen, die Suspendierungsmittel, Lösungsvermittler, Verdickungsmittel, Stabilisatoren und Konservierungsmittel einschließen können. Zusammensetzungen können zum Beispiel durch intravenöse Infusion, oral, topisch, intraperitoneal, intravesikal oder intrathekal verabreicht werden. Die Zubereitungen von Verbindungen können in versiegelten Einzeldosis- oder Mehrfachdosisbehältern dargereicht werden, wie z. B. Ampullen oder Fläschchen. Injektionslösungen und -suspensionen können aus sterilen Pulvern, Granulaten und Tabletten der Art wie oben beschrieben hergestellt werden.
Die Dosis, die einem Patient verabreicht wird, sollte ausreichend sein um eine nützliche therapeutische Antwort des Patienten mit der Zeit zu bewirken. Die Dosis wird durch die Wirksamkeit und den Kd des besonderen verwendeten ZFPs, die Zielzelle und den Zustand des Patienten, wie auch das Körpergewicht oder die Größe der Oberfläche des Patienten bestimmt, der behandelt wird. Die Höhe der Dosis wird durch die Existenz, die Art und das Ausmaß von beliebigen negativen Nebenwirkungen bestimmt, die die Verabreichung einer bestimmten Verbindung oder eines Vektors in einem bestimmten Patienten begleiten.
In anderen Anwendungen werden ZFPs in diagnostischen Verfahren zur sequenzspezifischen Detektion von Zielnukleinsäuren in einer Probe verwendet. Zum Beispiel können ZFPs zur Detektion von abweichenden Allelen verwendet werden, die mit einer Krankheit oder einem Phänotyp in Patientenproben assoziiert sind. Zum Beispiel können ZFPs zur Detektion der Anwesenheit bestimmter mRNA-Spezies oder cDNAs in komplexen Mischungen von mRNAs oder cDNAs verwendet werden. Als weiteres Beispiel können ZFPs verwendet werden, um die Kopienzahl eines Gens in einer Probe zu quantifizieren. Zum Beispiel ist die Detektion des Verlustes einer Kopie eines p53-Gens in einer klinischen Probe ein Indikator der Empfänglichkeit für Krebs. In einem weiteren Beispiel werden ZFPs zur Detektion der Anwesenheit von pathologischen Mikroorganismen in klinischen Proben verwendet. Dies wird durch Verwendung von einem oder mehreren ZFPs erzielt, die für Gene aus den Mikroorganismen, die detektiert werden sollen, spezifisch sind. Ein geeignetes Format zum Durchführen diagnostischer Tests verwendet ZFPs verbunden mit einer Domäne, die die Immobilisierung des ZFPs auf einer ELISA-Platte erlaubt. Das immobilisierte ZFP wird mit der Probe, die eine Zielnukleinsäure enthalten könnte, unter Bedingungen in Kontakt gebracht, unter denen eine Bindung stattfinden kann. Typischerweise werden Nukleinsäuren in der Probe markiert (z. B. im Verlauf einer PCR-Amplifikation). Alternativ können unmarkierte Sonden durch eine zweite markierte Sonde detektiert werden. Nach dem Waschen werden die durch die Bindung markierten Nukleinsäuren detektiert.
ZFPs können ebenso für Tests zum Bestimmen des Phänotyps und der Funktion der Genexpression verwendet werden. Gegenwärtige Methodologien zum Bestimmen der Genfunktion basieren in erster Linie auf entweder einer Überexpression oder der Entfernung (vollständiger Knock-out) des interessierenden Gens aus ihrer natürlichen biologischen Umgebung und Beobachtung der Wirkungen. Die beobachteten phänotypischen Wirkungen zeigen die Rolle des Gens im biologischen System an.
Ein Vorteil der ZFP-vermittelten Regulation eines Gens relativ zur konventionellen Knock-out-Analyse ist, dass die Expression des ZFPs unter die Kontrolle kleiner Moleküle gebracht werden kann. Durch die Kontrolle des Expressionsspiegels des ZFPs kann man der Reihe nach die Expressionsspiegel eines Gens kontrollieren, das durch das ZFP reguliert wird, um zu bestimmen, welcher Grad der Repression oder Stimulation der Expression benötigt wird, um eine gegebene phänotypische oder biochemische Wirkung zu erzielen. Diese Vorgehensweise hat einen besonderen Wert bei der Arzneimittelentwicklung. Wenn das ZFP unter die Kontrolle eines kleinen Moleküls gebracht wird, können Probleme der embryonalen Lethalität und Entwicklungskompensation vermieden werden, wenn der ZFP-Repressor in einem späteren Stadium der Entwicklung der Maus angeschaltet wird und die Wirkungen im erwachsenen Tier beobachtet werden. Transgene Mäuse mit Zielgenen, die durch ein ZFP reguliert werden, können durch Integration der Nukleinsäure kodierend das ZFP an einem beliebigen Ort trans zum Zielgen hergestellt werden. Dementsprechend wird eine homologe Rekombination für die Integration der Nukleinsäure nicht benötigt. Da weiterhin das ZFP transdominant ist, wird nur eine chromosomale Kopie benötigt, und funktionelle Knock-out-Tiere können daher ohne Rückkreuzen hergestellt werden.
X. Computersysteme und Programme
4 stellt ein repräsentatives Computersystem dar, das zum Implementieren der vorliegenden Erfindung geeignet ist. 4 zeigt grundlegende Teilsysteme eines Computersystems 10, das zur Verwendung in der vorliegenden Erfindung geeignet ist. In 4 schließt das Computersystem 10 einen Bus 12 ein, der bedeutende Teilsysteme miteinander verbindet, z. B. einen zentralen Prozessor 14, einen Systemspeicher 16, einen Eingabe/Ausgabe-Kontroller 18, eine externe Vorrichtung wie z.B einen Drucker 20 über eine parallele Schnittstelle 22, einen Bildschirm 24 über einen Bildschirmadapter 26, eine serielle Schnittstelle 28, eine Tastatur 30, ein Festplattenlaufwerk 32 und ein Diskettenlaufwerk 33, das eine Diskette 33A aufnehmen kann. Viele andere Vorrichtungen können verbunden werden, wie z. B. ein Scanner 60 (nicht gezeigt) über einen I/O-Kontroller 18, eine Maus 36, die mit der seriellen Schnittstelle 28 verbunden ist, oder ein Netzwerkinterface 40. Viele andere Vorrichtungen oder Teilsysteme (nicht gezeigt) können auf ähnliche Weise verbunden werden. Ebenso ist es nicht notwendig, dass alle Vorrichtungen, die in 4 gezeigt sind, vorhanden sind, um die vorliegende Erfindung auszuführen, wie unten diskutiert. Die Vorrichtungen und Teilsysteme können auf andere Weise als in 4 gezeigt miteinander verbunden werden. Die Operationen eines Computersystems, wie z. B. in 4 gezeigt, sind ohne weiteres dem Stand der Technik zu entnehmen und nicht ausführlich in der vorliegenden Anmeldung diskutiert. Ein Quellcode zum Implementieren der vorliegenden Erfindung kann operativ in Systemspeicher 16 eingerichtet oder auf einem Speichermedium wie z. B. einer Festplatte 32 oder einer Diskette 33A gespeichert werden.
5 ist eine Darstellung eines repräsentativen Computersystems 10 aus 4, das geeignet ist, die erfindungsgemäßen Verfahren zu verkörpern. 5 stellt nur ein Beispiel von vielen möglichen Computertypen oder -konfigurationen dar, die in der vorliegenden Erfindung verwendet werden können. 5 zeigt ein Computersystem 10, einschließend einen Bildschirm 24, ein Gehäuse 20, eine Tastatur 30, einen Scanner 60 und eine Maus 36. Die Maus 36 und die Tastatur 30 stellen "Vorrichtungen zur Benutzereingabe" dar. Andere Beispiele von Vorrichtungen zur Benutzereingabe sind ein Berührungsschirm, ein Lichtstift, ein Trackball, ein Datenhandschuh, etc.
In einer bevorzugten Ausführungsform schließt System 10 einen Computer der Pentiumklasse^® ein, auf dem das Betriebssystem Windows^® Version 3.1, Windows95^® oder Windows98^® der Microsoft Corporation läuft. Jedoch können die Verfahren leicht an andere Betriebssystem adaptiert werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen.
Die Maus 36 kann eine oder mehrere Tasten wie zum Beispiel die Tasten 37 haben. Das Gehäuse 20 enthält geläufige Computerkomponenten wie z. B. ein Diskettenlaufwerk 33, einen Prozessor, Speichermittel, etc. In dieser Beschreibung schließt "Speichermittel" eine beliebige Speichervorrichtung ein, die in Verbindung mit einem Computersystem verwendet wird, z. B. Diskettenlaufwerke, Magnetband, Festkörperspeicherelemente, Blasenspeicher etc. Das Gehäuse 20 kann weitere Hardware einschließen wie z. B. ein Eingabe/Ausgabe (I/O)-Interface 18, um das Computersystem 10 mit externen Vorrichtungen zu verbinden, z. B. mit einem Scanner 60, einem externen Spreicher, anderen Computern oder weiterer Peripherie. 5 ist nur für einen Systemtyp zur Verkörperung der vorliegenden Erfindung repräsentativ. Viele andere Systemtypen und Konfigurationen sind zur Verwendung in Verbindung mit der vorliegenden Erfindung geeignet.
6 stellt ein Flussdiagramm 301 von vereinfachten Schritten einer repräsentativen Ausführungsform zum Auswählen eines Zielortes enthaltend einen D-fähigen Teilort innerhalb einer Zielsequenz zum Targeting durch ein Zinkfingerprotein dar. In Schritt 302 wird eine Zielsequenz bereitgestellt, die durch ein Zinkfingerprotein getargetet werden soll. Dann wird in Schritt 303 ein möglicher Zielort innerhalb der Zielsequenz zur Beurteilung ausgewählt. In einem Entscheidungsschritt 304 wird der mögliche Zielort beurteilt, um zu bestimmen, ob er einen D-fähigen Teilort enthält. Solch ein Zielort entspricht der Formel
5'-NNx aNy bNzc-3', wobei
jedes von (x,a), (y,b) und (z,c) (N,N) oder (G,K) ist;
wenigstens eines von (x,a), (y,b) und (z,c) (G,K) ist; und
N und K mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind.
Wenn der mögliche Zielort einen D-fähigen Teilort enthält, wird der mögliche Zielort in einem Datensatz in 205 gespeichert. Das Verfahren wird mit einem weiteren Enscheidungsschritt 306 fortgesetzt. Wenn die Beurteilung eines weiteren möglichen Zielortes durch den Benutzer notwendig ist, wird eine weitere Iteration des Verfahrens durchgeführt, die bei 303 beginnt. Wenn genügend mögliche Zielorte beurteilt sind, werden die Datensätze der Zielorte, die in Schritt 305 gespeichert wurden, in Schritt 307 ausgegeben.
7A stellt ein Flussdiagramm von vereinfachten Schritten einer anderen repräsentativen Ausführungsform zum Auswählen eines Zielortes innerhalb eines Polynukleotides zum Targeting durch ein Zinkfingerprotein dar. In Schritt 402 wird eine Polynukleotidzielsequenz zur Analyse bereitgestellt. Dann wird in Schritt 404 ein möglicher Zielort innerhalb der Polynukleotidsequenz ausgewählt. Der möglich Zielort umfasst erste, zweite und dritte Basentripletts an ersten, zweiten und dritten Positionen des möglichen Zielortes. Dann werden in Schritt 406 mehrere Teilscores durch Anwendung von Korrespondenzregeln zwischen Tripletts und Triplettposition bestimmt, wobei jedes Triplett erste, zweite und dritte entsprechende Positionen hat, und jedem entsprechenden Triplett und jeder entsprechenden Position wird ein bestimmter Teilscore zugewiesen. Der nächste Entscheidungsschritt 408 ist optional, in dem der Benutzer wählen kann, einen oder mehrere der Teilscores mit einem Skalierungsfaktor in Schritt 410 zu skalieren. Danach wird in Schritt 412 ein Score aus den (passend skalierten) Teilscores für die ersten, zweiten und dritten Tripletts bestimmt. Dann wird in einem Entscheidungsschritt 414 eine Kontrolle durchgeführt, ob beliebige weitere mögliche Zielorte untersucht werden müssen. Falls ja, wird die Verarbeitung mit Schritt 404 fortgeführt. Anderenfalls wird in Schritt 416 wenigstens einer der möglichen Zielorte und sein Score ausgegeben.
7B stellt ein Flussdiagramm von vereinfachten Schritten einer repräsentativen Ausführungsform zum Herstellen eines Zinkfingerproteins dar. In Schritt 450 wird eine Datenbank umfassend Bezeichnungen für mehrere Zinkfingerproteine bereitgestellt. Jedes Protein in der Datenbank umfasst wenigstens erste, zweite und dritte Finger. Die Datenbank umfasst weiterhin Unterbezeichnungen für jeden der drei Finger für jedes der Zinkfingerproteine und eine entsprechende Nukleinsäuresequenz für jedes Zinkfingerprotein. Jede Sequenz umfasst wenigstens erste, zweite und dritte Tripletts, die spezifisch an den wenigstens ersten, zweiten bzw. dritten Finger jedes Zinkfingerproteins gebunden sind. Das erste, zweite und dritte Triplett hat eine Anordnung in der Nukleinsäuresequenz in der selben jeweiligen Reihenfolge (3'-5'), wie der erste, zweite und dritte Finger im Zinkfingerprotein angeordnet ist (N-terminal bis C-terminal).
In Schritt 452 wird ein Zielort zur Konstruktion von Zinkfingerproteinen umfassend wenigstens erste, zweite und dritte Tripletts bereitgestellt. Dann wird in Schritt 454 ein erster Satz von Zinkfingerproteinen mit einem Finger, der an das erste Triplett bindet, in der Zielsequenz identifiziert. Dann folgt ein optionaler Schritt 456 zum Identifizieren erster und zweiter Teilsätze des in 454 bestimmten Satzes. Der erste Teilsatz umfasst Zinkfingerproteine) mit einem Finger, der an das erste Triplett der ersten Fingerposition des Zinkfingerproteins bindet. Der zweite Teilsatz umfasst Zinkfingerproteine) mit einem Finger, der an das erste Triplett einer anderen als der ersten Fingerposition des Zinkfingerproteins bindet. Das Verfahren wird mit Schritt 458 fortgesetzt. In diesem Schritt wird ein weiterer Satz von Zinkfingerproteinen identifiziert, wobei dieser Satz einen Finger umfasst, der an das zweite Triplett des Zielortes bindet. Diesem Schritt folgt ein optionaler Schritt 460 zum Identifizieren erster und zweiter Teilsätze des in Schritt 458 identifizierten Satzes. Der erste Teilsatz umfasst Zinkfingerprotein(e), die an das zweite Triplett der zweiten Position innerhalb eines Zinkfingerproteins binden. Der zweite Teilsatz umfasst Zinkfingerprotein(e), die an das zweite Triplett einer anderen als der zweiten Position eines Zinkfingerproteins binden. Das Verfahren wird mit Schritt 462 fortgesetzt. In 462 wird ein Satz Zinkfingerproteine identifiziert umfassend einen Finger, der an das dritte Triplett des Zielortes bindet. Mit einem optionalen Schritt 464 werden erste und zweite Teilsätze des in Schritt 462 identifizierten Satzes identifiziert. Der erste Teilsatz umfasst Zinkfingerproteine) enthaltend einen Finger, der an das dritte Triplett der dritten Fingerposition des Zinkfingerproteins bindet. Der zweite Teilsatz umfasst Zinkfingerproteine) enthaltend einen Finger, der an das dritte Triplett einer anderen als der dritten Fingerposition des Zinkfingerproteins bindet. Das Verfahren wird mit Schritt 466 fortgesetzt, in dem die Sätze der Zinkfingerproteine, die in den Schritten 454, 458 und 462 identifiziert wurden, separat ausgegeben werden. In einem weiteren optionalen Schritt 468 werden die ersten und zweiten Teilsätze der Zinkfingerproteine, die in den Schritten 460, 464 und 468 identifiziert wurden, ausgegeben.
8A ist ein Schlüssel zum Diagramm zur Darstellung einer Dateneinheit (Entity Representation Diagram, ERD), das verwendet wird, um den Inhalt einer ZFP-Datenbank zu beschreiben. Eine repräsentative Tabelle 502 schließt ein oder mehrere Schlüsselattribute 504 und ein oder mehrere Nicht-Schlüsselattribute 506 ein. Die repräsentative Tabelle 502 schließt einen oder mehrere Datensätze ein, wobei jeder Datensatz Felder entsprechend den aufgelisteten Attributen einschließt. Die Inhalte der Schlüsselfelder zusammengenommen identifizieren einen individuellen Datensatz. Im ERD wird jede Tabelle durch ein Rechteck repräsentiert, das durch eine: horizontale Linie geteilt ist. Die Felder oder Attribute oberhalb der Linie sind Schlüssel, wehrend die Felder oder Attribute unter der Linie Nicht-Schlüsselfelder sind. Eine Identifikationsbeziehung 508 bedeutet, dass das Schlüsselattribut einer Muttertabelle 510 ebenso ein Schlüsselattribut einer Tochtertabelle 512 ist. Eine Nicht-Identifikationsbeziehung 514 bedeutet, dass das Schlüsselattribut einer Muttertabelle 516 ebenso ein Nicht-Schlüsselattribut einer Tochtertabelle 518 ist. Wo (FK) in Klammern erscheint, bedeutet dies, dass ein Attribut einer Tabelle ein Schlüsselattribut einer anderen Tabelle ist. Für sowohl die Nicht-Identifikations- als auch die Identifikationsbeziehungen entspricht ein Datensatz in der Muttertabelle einem oder mehreren Datensätzen in der Tochtertabelle.
8B stellt eine repräsentative ZFP-Datenbank 550 entsprechend einer besonderen erfindungsgemäßen Ausführungsform dar. Die Datenbank 550 kann typischerweise Bezeichnungen für jedes ZFP aus einer Sammlung von vorcharakterisierten ZFPs einschließen. Die ZFPs können natürliche ZFPs oder davon abweichende ZFPs sein. Die Bezeichnung kann z. B. der Name oder ein Symbol sein, das jedes ZFP repräsentiert. ZFP 552 der Datenbank 550 in 8B wird z. B. "ZFP001" bezeichnet. Die Datenbank 550 schließt ebenso Unterbezeichnungen für jeden der Finger eines ZFPs ein, wie z. B. die Unterbezeichnung 554, Finger 1 von ZFP001 552. Typischerweise haben die Unterbezeichnungen die Form von Aminosäureresten, die ausgewählte Positionen in einem Finger besetzen. Weiterhin haben die ZFPs Unterbezeichnungen, die die Aminosäuren sind, die die Positionen –1 bis +6 entsprechend der konventionellen Numerierung besetzen. Die Datenbank kann weiterhin ein Zielnukleinsäuresegment einschließen, das durch jedes Zinkfingerprotein gebunden wird. Das Nukleinsäuresegment schließt normalerweise drei Tripletts von drei Basen ein. Die drei Basentripletts können als zu einer Sequenz verbunden oder als separate Sequenzen aufgenommen werden. Wenn Basen eines neunbasigen Zielortes fortlaufend vom 5'-Ende numeriert werden, besetzt ein erstes Triplett die Basen 7–-9, ein zweites Triplett besetzt die Basen 4–6 und ein drittes Triplett besetzt die Basen 1–3. Entsprechend dieser Bezeichnung der Triplettpositionen innerhalb eines Zielsegmentes bindet der erste Finger eines Zinkfingerproteins (z. B. dem N-Terminus am nächsten) an das erste Triplett, der zweite Finger an das zweite Triplett und der dritte Finger an das dritte Triplett. Die Datenbank kann ebenso zusätzliche Informationen einschließen, wie z. B. die Bindungsaffinität oder Dissoziationskonstante eines ZFPs für seinen Zielort, obwohl das nicht wesentlich ist. Weiterhin kann die Datenbank 550 andere Anordnungen und Beziehungen zwischen den ZFPs, Fingern und Nukleinsäuren einschließen als in 8B dargestellt, ohne vom Umfang der vorliegenden Erfindung abzuweichen.
Beispiele
Beispiel 1 – SUCHPROTOKOLLE FÜR DNA-MOTIVE
Dieses Beispiel stellt dar, wie ein Zielsegment aus einem längeren Gen ausgewählt wird. Das Suchverfahren wird unter Verwendung eines Computerprogramms implementiert, das es ermöglicht, eine oder mehrere DNA-Sequenzmotive in einem Suchprotokoll zu spezifizieren. Das normale Verfahren ist die Eingabe der DNA-Sequenz eines Gens oder cDNA und dann die mehrmalige Suche in der Sequenz nach verschiedenen Motiven, vom am stärksten wünschenswerten hin zum am wenigsten wünschenswerten. Daher würde man typischerweise von den unten aufgeführten exemplarischen Protokollen zuerst Protokoll 1 durchführen, und wenn dieses keine angemessene Anzahl möglicher Zielsegmente ergibt, versucht man Protokoll 2, und so weiter.
Protokoll 1 sucht ein Zielgen für einen Zielort, der aus zwei separaten Segmenten gebildet wird, jedes aus 9 oder 10 Basen. Die zwei Segmente können durch null bis drei dazwischenliegende Basen getrennt sein. Jedes Segment schließt einen D-fähigen Teilort der Form NNGG ein (fett dargestellt). Jeder dreibasige Teilort innerhalb eines Segments beginnt mit einem G. Die Zielorte, die durch diese Analyse identifiziert werden, können direkt zur ZFP-Konstruktion verwendet werden oder können Gegenstand einer weiteren Analyse sein, z. B. dem Identifizieren, welche Zielsegmente zusätzliche D-fähige Teilorte besitzen. In einem Zielort, der aus zwei Segmenten gebildet wird, jedes aus zehn Basen, können insgesamt sechs D-fähige Teilorte vorhanden sein. Alle Zielorte werden unten von 5' nach 3' gezeigt, und die Nomenklatur "0,3" zeigt an, dass 0–3 Nukleotide jeden Typs vorhanden sein können.
Protokoll 2 ist ein zweites Verfahren zur Beurteilung von Zielorten innerhalb eines Zielgens. Dieses Verfahren sucht wieder nach einem Zielort, der aus zwei Segmenten gebildet wird, jedes aus 9 oder 10 Basen. Jedes Segment enthält wenigstens einen D- fähigen Teilort der Form KNGG. Protokoll 2 unterscheidet sich von Protokoll 1 darin, dass es in Protokoll 2 nicht notwendig ist, dass dreibasige Teilorte mit einem G beginnen. Statt dessen beginnen in Protokoll 2 dreibasige Teilorte entweder mit einem G oder T (mehrdeutige Abkürzung K nach IUBPAC-IUB). Zielorte werden von 5' nach 3' gezeigt, und die Symbole "(0,3)" und "(0,2)" zeigen dazwischenliegende Segmente von 0–3 bzw. 0-2 Basen an.
Protokoll 3 ist wie Protokoll 2, außer dass Protokoll 3 Zielorte mit entweder einem KNGG- oder einem KNGT-D-fähigen Teilort auswählt. Zielorte werden von 5' nach 3' gezeigt.
Protokoll 4 ist allgemeiner als jedes der oben beschriebenen Protokolle, und es ist nicht notwendig, dass Zielorte einen D-fähigen Teilort enthalten. Auf ähnliche Weise benötigt Protokoll 4 zwei Segmente, jedes aus 9 Basen der Form GNN GNN GNN im Abstand von 0–3 Basen.
Protokoll 5 ist wie Protokoll 4, außer dass es nach Zielorten sucht, die aus zwei Zielsegmenten der Formel 5'KNN KNN KNN3' im Abstand von 0–3 Basen gebildet werden.
Beispiel 2
Dieses Beispiel stellt dar, dass Zinkfingerproteine, die an Zielsegmente binden, die wenigstens einen D-fähigen Teilort einschließen, allgemein mit höherer Affinität binden als Zinkfingerproteine, die an Zielsegmente binden, denen D-fähige Teilorte fehlen, vorausgesetzt, dass das ZFP einen D-Rest an Position +2 hat. Dreiundfünfzig ZFPs, jedes mit drei Fingern, wurden aus einer Sammlung ohne Betrachtung der Bindungsaffinität oder Bindung an einen D-fähigen Teilort ausgewählt. Die Dissoziationskonstanten der ausgewählten ZFPs wurden bestimmt, indem die ZFPs an ein Zielsegment gebunden wurden, das drei aufeinanderfolgende Nukleotidtripletts umfasste, die in dieser Reihenfolge an die drei Finger des ZFPs plus wenigstens eine flankierende Base der Zielsequenz auf jeder Seite banden. Alle ZFPs hatten das menschliche Sp1-Gerüst. Die Bindungsaffinitäten dieser 53 ZFPs wurden willkürlich in 4 Gruppen geteilt und als Kd-Werte in Tabelle 2 aufgelistet.
Tabelle 2
Entsprechend dieser Klassifizierung hatten nur ungefähr 25% (14/53) dieser Proteine eine hohe Affinität (Kd kleiner oder gleich 100 nM) für ihre entsprechenden Ziele. Von diesen 14 Proteinen hatten alle wenigstens einen D-fähigen Teilort innerhalb des Ziels.
Beispiel 3
Wir suchten unter Verwendung der Protokolle 2 und 3 die Sequenz der FAD2-1-cDNA der Sojabohne (Glycine max) nach gepaarten nahe beieinander liegenden neunbasigen Zielsegmenten ab. Fünf Zielsegmente wurden ausgewählt, und entweder ein oder zwei ZFPs wurden konstruiert, um an jedes der Ziele zu binden. Die ausgewählten Ziele und die Kd-Werte für die entsprechend konstruierten ZFPs sind in Tabelle 3 gezeigt. D-fähige Teilorte sind fett dargestellt. Sequenzen sind von 5' nach 3' gezeigt.
Tabelle 3
Alle 8 hergestellten ZFPs banden mit hoher Affinität (Kd kleiner oder gleich 100 nM) an ihre Ziele, was zeigt, dass Auswählen eines Ziels mit einem D-fähigen Teilort innerhalb eines 9bp-Ziels eine effektive Konstruktion eines hochaffinen ZFPs ermöglicht. Überdies banden alle ZFPs, die an Zielorte mit zwei D-fähigen Teilorten binden, fester als ZFPs, die an Zielorte mit nur einem D-fähigen Teilort binden.
Beispiel 4
Dieses Beispiel stellt weitere Belege bereit, dass D-fähige Teilorte eine hohe Bindungsaffinität verleihen. Dreiundfünfzig Zielsegmente wurden durch das oben aufgeführte Protokoll 5 identifiziert, das keinen D-fähigen Teilort im Zielort benötigt. Dreiundfünfzig ZFPs wurden konstruiert, um an diese entsprechenden Orte zu binden. Dreiundreißig Zielsegmente wurden durch das obige Protokoll 3 identifiziert, das einen D-fähigen Teilort benötigt, und dreiunddreißig ZFPs wurden konstruiert, um an diese entsprechenden Orte zu binden. Tabelle 4 vergleicht die Kds von ZFPs, die durch die verschiedenen Verfahren konstruiert wurden.
Tabelle 4
Tabelle 4 zeigt, dass 31 von 33 ZFPs, die durch Protokoll 3 konstruiert wurden, eine hohe Bindungsaffinität haben (Kd kleiner als 100 nM). Im Gegensatz dazu haben nur 14 der 56 ZFPs, die durch Protokoll 5 konstruiert wurden, eine hohe Bindungsaffinität. Diese Daten zeigen, dass hochaffine ZFPs (Kd < 100 nM) effektiver für Ziele konstruiert werden können, wenn das Suchprotokoll Kriterien für D-fähige Teilorte einschließt, als wenn das Suchprotokoll keinen D-fähigen Teilort benötigt.
Beispiel 5
Die Beziehung zwischen der Affinität des ZFPs und der Anwesenheit eines oder mehrerer D-fähiger Teilorte im Ziel wurde für etwa 300 konstruierte ZFPs analysiert, die meistens für verschiedene Zielorte spezifisch waren. In dieser und folgenden Analysen war nur ein ZFP für einen Zielort eingeschlossen, und zwar das ZFP mit der höchsten Affinität.
Tabelle 5 und 1 zeigen die mittleren Kds von verschiedenen Kategorien von ZFP, die anhand Nummer und Typ der D-fähigen Teilorte, die an einen neunbasigen Zielort binden, kategorisiert wurden. In Tabelle 4 und weiter in den Tabellen 6, 7 und 8, ist s.e.m. der mittlere Fehler des Mittelwertes (standard error of the mean), und n ist die Zahl der untersuchten Proteine.
Tabelle 5
Die 22 ZFPs, die für Ziele mit D-fähigen Teilorten vom Typ "zwei GG" konstruiert wurden, haben die stärkste Bindungsaffinität mit einem mittleren Kd = 15 nM. Von den 50 ZFPs mit einem Kd < 100 nM haben 49 wenigstens einen D-fähigen Teilort. Die Tabelle zeigt die folgende Schlussfolgerung: (1) Binden an einen Zielort mit einem D-fähigen Teilort bindet stärker als ZFPs, die an einen Zielort binden, dem ein D-fähiger Teilort fehlt; (2) ZFPs, die an einen Zielort mit zwei D-fähigen Teilorten binden, binden stärker als ZFPs, die an einen Zielort mit einem D-fähigen Teilort binden, und (3) ZFPs mit einem Zielort mit einem GG-D-fähigen Teilort binden stärker als ZFPs mit einem Zielort mit einem GT-D-fähigen Teilort.
Beispiel 6
Ein anderer Faktor, der die Bindungsaffinität von konstruierten ZFPs beeinflusst, ist, ob ein Zielort die Form GNN GNN GNN anstatt KNN KNN KNN hat. Dieses Beispiel zeigt, dass D-fähige Teilorte hohe Bindungsaffinität auch im Kontext eines GNN GNN GNN-Motivs verleihen. Für diese Analyse wählten wir eine Population von 59 ZFPs aus, von denen jedes an einen unterschiedlichen Zielort der Form GNN GNN GNN bindet. Tabelle 6 zeigt die Kd-Werte konstruierter ZFPs als Funktion der Anwesenheit D-fähiger Teilorte mit einem GNN GNN GNN-Ziel.
Tabelle 6
Die Anwesenheit eines D-fähigen Teilortes beeinflusst die Bindungsaffinität eines ZFPs stark, auch wenn das Ziel auf das GNN GNN GNN-Motiv passt.
Beispiel 7
Dieses Beispiel stellt weitere Belege bereit, dass die Wirkung von D-fähigen Teilorten bei der Verleihung einer erhöhten Bindungsaffinität mit beliebigen Wirkungen von G-Resten bei der Verleihung einer hohen Bindungsaffinität relativ zu anderen Resten additiv ist. Für diese Analyse wählten wir 101 Zinkfingerproteine aus, die an verschiedene Zielorte aus unserer Sammlung binden und klassifizierten diese Zielorte anhand der Zahl der vorhandenen G-Reste. Die Zielorte enthielten von 2–8 G-Resten in einer neunbasigen Sequenz. Tabelle 7 zeigt im allgemeinen, dass je mehr G-Reste in einem Zielort vorhanden sind, desto stärker die Bindungsaffinität des ZFPs für diesen Ort ist.
Tabelle 7
Wir analysierten diese Daten weiter, indem wir fragten, ob die Anwesenheit oder Abwesenheit eines D-fähigen Teilortes die mittleren Kd-Werte der konstruierten ZFPs beeinflusste. Jede Kategorie von neunbasigen Zielen aus Tabelle 7 wurde in Ziele unterteilt, enthaltend oder nichtenthaltend D-fähige Teilorte. Das Ergebnis dieser Analyse ist in Tabelle 8 gezeigt.
Tabelle 8
Die Tabelle zeigt, dass die Orte, die D-fähige Teilorte) einschließen, eine höhere Bindungsaffinität verleihen, wenn Zielorte mit derselben Zahl von G-Resten, aber verschiedenen Zahlen D-fähiger Teilorte verglichen werden. Für neunbasige Zielorte mit 4 oder mehr Gs ist der mittlere Kd annähernd 100 nM oder weniger, wenn das Ziel wenigstens einen D-fähigen Teilort hat. Besonders bemerkenswert ist der Vergleich zwischen Zielorten mit 5 G-Resten. 5 derartige Zielorte, denen ein D-fähiger Teilort fehlt, hatten einen mittleren Kd von 640 nM. 23 derartige Zielorte mit zwei D-fähigen Teilorten hatten einen mittleren Kd von 98 nM.
Beispiel 10: Das ZFP-Vorhersagemodul
Dieses Beispiel stellt die Auswahl eines Zielsegmentes innerhalb eines Zielgens unter Verwendung von Korrespondenzregeln und die Verwendung einer Datenbank zur Konstruktion eines ZFPs dar, das an das ausgewählte Zielsegment bindet. Das ZFP-Vorhersagemodul erleichtet sowohl die Ortsauswahl als auch die Verfahren zur ZFP-Konstruktion, indem als Eingabe (i) die interessierende DNA-Sequenz, (ii) verschiedene Datentabellen, (iii) Konstruktionsparameter und (iv) Ausgabeparameter verwendet werden und eine Liste möglicher ZFP-Zielorte in der interessierenden Sequenz und eine Zusammenfassung der Finger ausgegeben wird, die für Teilorte für jeden Zielort konstruiert wurden. Dieser Abschnitt beschreibt Programmeingaben, Ausgaben, und Scoringprotokolle für das Programm. Zur Klarheit werden die Beschreibungen in die Ortsauswahl und die Konstruktionsfunktionen geteilt.
1. Auswahl der Zielorte innerhalb der interessierenden DNA-Region
Eingaben

1) Die Ziel-DNA-Sequenz
2) Eine Scoretabelle, die jeden der möglichen Teilorte mit drei Basenpaaren und Scores für seine drei möglichen Lagen in einem 9-bp-Zielort auflistet, ist in Tabelle 1 gezeigt. Die Scoretabelle wird durch den Benutzer während des Programmablaufs bereitgestellt und kann individuell hergerichtet und auf den neuesten Stand gebracht werden, um das neueste Wissen des Benutzers über die bevorzugten DNA-Sequenzen des Zinkfingermotivs wiederzugeben.
3) Eine 'ZFP-Datentabelle', die Zielorte, Aminosäuresequenzen und Referenzdaten für existierende hochaffine ZFPs enthält. Diese Tabelle wird für diesen Teil des Programms nur benötigt, wenn der Ausgabeparameter (ii) unten ausgewählt wird. Ein Beispiel einer ZFP-Datentabelle wird in Tabelle 9 bereitgestellt.
4) Ein vom Benutzer während des Programmablaufs eingegeber optionaler Kontextparamter – der "Erhöhungsfaktor für 'D-fähige' Tripletts". Dieser Parameter multpliziert – durch den Erhöhungsfaktor – den Score für jeden 'xxG'-Teilort, der durch ein 3'- G oder -T flankiert wird.
5) Ausgabeparameter – durch den Benutzer bereitgestellt – spezifizierend

i) die Zahl von Zielorten, die in die Ausgabe eingeschlossen werden sollen,
ii) ob das Programm solche Zielorte spezifisch hervorheben soll (wenn überhaupt), für die dreifingerige Proteine schon konstruiert worden sind,
iii) ob das Programm die ausgegebenen Zielorte entsprechend ihrer relativen Positionen in der Eingabezielsequenz neu ordnen soll,
iv) ob das Programm targetierbare Paare von 9-bp-DNA-Orten hervorheben soll (benachbart, nichtüberlappende Ortspaare getrennt durch n oder weniger Basen, wobei n typischerweise 5, 4, 3, 2 oder 1 ist).

Ausgabe
Ein Satz möglicher Zielorte in der Ziel-DNA-Sequenz, die durch Scores eingeordnet sind.
Wenn angegeben, eine Liste beliebiger Zielorte, für die dreifingerige Protein schon konstruiert worden sind.
Wenn angegeben, die Liste der ausgegebenen Zielorte neu geordnet entsprechend ihrer Lage in der Eingabesequenz.
Wenn angegeben, eine Liste aller targetierbaren Paare von 9-bp-DNA-Orten.
Der Programmteil zur Ortsauswahl weist jeder möglichen 9-bp-Sequenz in einem gegebenen Ziel-DNA-Fragment einen Score zu, wobei der Score die Leichtigkeit der Targetierbarkeit wiedergibt, die auf der Verwendung von Informationen von früher konstruierten Zinkfingerproteinen basieren. Beim Beurteilen einer gegebenen neunbasigen Sequenz spalted das Programm zuerst das Ziel in seine einzelnen Teilorte und zieht dann die Scoretabelle heran, um einen Score für jeden Teilort an seiner Lage im möglichen Zielort zu erhalten. Schließlich multipliziert es die Teilortscores, um einen Gesamtscore für den 9-bp-Zielort zu erhalten. Zum Beispiel sind bei Verwendung der Testsequenz 5'AGTGCGCGGTGC3' und der Scoretabelle in Tabelle 1 die Ausgabeorte (5'-3') und Scores
In diesem Beispiel ist der beste Zielort 5'TGC GCG GTG3' mit einem Score von 1000. Das Programm weist ebenso möglichen Zielen auf dem gegenläufigen (antisense) Strang Scores zu, aber um der Vereinfachung willen werden in diesem Beispiel diese Orte ignoriert. Ein optionaler Faktor, der "Erhöhungsfaktor für 'D-fähige' Tripletts" kann bereitgestellt werden, um das obige Scoringprotokoll zu verändern, um beim Beurteilen von Zielorten den Kontextfaktor – den D-fähigen Kontakt – zu berücksichtigen. Wenn dieses Merkmal gewählt ist, führt das Programm die folgende Überprüfung beim Zuweisen von Teilortscores durch:
Wenn ein Teilort die Form xxG hat, wenn dann die benachbarte Base (auf der 3'-Seite) T oder G ist, dann wird der Score des xxG-Teilortes mit dem Erhöhungsfaktor multipliziert, anderenfalls bleibt der Teilortscore derselbe.
[Wenn ein Teilort die Form xxA, xxC oder xxT hat, bleibt der Teilortscore ebenso unverändert.]
Wenn zum Beispiel der Benutzer einen Erhöhungsfaktor für 'D-fähige' Tripletts von 1,25 eingibt, werden die obigen Scores wie folgt angepasst:

[Bei Verwendung dieser Option betrachtet das Programm die Identität der Base direkt an der 3'-Seite des Zielortes (in Kleinbuchstaben). Für den letzten Ort ist diese Base in diesem Beispiel nicht definiert, weshalb es durch das Zeichen '#' an dieser Position gekennzeichnet ist.]

Nach Zuweisen von Scores zu allen Sequenzen mit neun Basenpaaren in der Ziel-DNA druckt das Programm dann die Spitzenscores mit den Nummern der ausgegebenen Orte aus, die durch den Benutzer bestimmt wurden.
Wie durch den Benutzer angegeben, kann das Programm ebenso bereitstellen:

i. eine Liste beliebiger Zielorte, für die dreifingerige Proteine schon konstruiert worden sind, ii. die Liste der ausgegebenen Zielorte neu geordnet entsprechend ihrer Lage in der Eingabesequenz, iii. eine Liste aller targetierbaren Paare von 9-bp-DNA-Orten (benachbart, nichtüberlappende Ortspaare getrennt durch fünf, drei oder weniger Basen).

II. Konstruktion von Proteinen für ausgewählte Zielorte
Eingaben: Orte des Programmanteils zur Ortsauswahl (oder anderweitig bestimmt)
Die 'ZFP-Datentabelle', die Zielorte, Aminosäuresequenzen und Referenzdaten für existierende hochaffine ZFPs enthält.
Einen Ausgabeparameter – durch den Benutzer bereitgestellt -, der spezifiziert, ob das Programm die Ausgabe beschränken soll auf entweder:

(i) nur solche Proteine (wenn überhaupt), deren Zielorte vollständig identisch zu den Orten der Ausgabe sind, oder
(ii) nur solche Proteine (wenn überhaupt), deren Zielorte zu den Ausgabeorten an zwei oder mehr der Teilorte mit drei bp passen.

Ausgabe: Ohne die Beschränkungen (i) oder (ii)
Für jeden möglichen Zielort mit 9 Basenpaaren eine Liste mit drei Sätzen von ZFPs und ihrer Einzelfinger aus der ZFP-Datentabelle, die in dieser Reihenfolge an die drei Triplett-Teilorte innerhalb des Zielortes binden. Für jeden Teilort kann der Satz von ZFPs in zwei Teilsätze unterteilt werden. Ein Teilsatz enthält ZFPs und ihre Finger, die an ein Triplett an einer gegebenen Position der entsprechenden Fingerposition in einem Mutter-ZFP binden. Der andere Teilsatz enthält ZFPs und ihre Finger, die an ein Triplett an einer gegebenen Position einer nichtentsprechenden Position innerhalb eines Mutter-ZFPs binden. Eine erste Fingerposition (N-C) entspricht der ersten Triplettposition 3'-5'.
Der Programmanteil zur ZFP-Konstruktion erleichtert das Konstruktionsverfahren, indem er dem Benutzer erlaubt, schnell alle Finger zu begutachten, von denen bekannt ist, dass sie an Teilorte in einem gegebenen neunbasigen Zielort binden. Ziel. Wenn das optimale Konstruktionsziel aus dem obigen Beispiel (5'TGCGCGGTG3') und die kurze ZFP-Datentabelle, die in Tabelle 9 bereitgestellt wird, gegeben wird, wäre die Ausgabe (ohne die Beschränkungen (i) oder (ii)) wie folgt:
Die 'geordnete' Ausgabe zeigt, dass in der ZFP-Datentabelle ein Fall auftritt, wo der TGC-Teilort durch einen Zinkfinger im dritten Triplett eines Zielortes kontaktiert wird. In diesem Fall ist der Finger ERDHLRT, und der Ort ist 5'TGCGGGGCA3'. In jedem der beiden anderen Teilorte tritt ein ähnlicher Fall auf – GCG und GTG. In diesen Fällen sind die Finger RSDELQR bzw. RKDSLVR. Diese Information wird verwendet, um das Dreifingerprotein F1-RKDSLVR, F2-RSDELQR, F3-ERDHLRT als Konstrukt zur Bindung des Ziels 5'TGCGCGGTG3' vorzuschlagen.
Die 'ungeordnete' Ausgabe zeigt, dass es in der ZFP-Datentabelle zwei Fälle gibt, in denen Finger einen GCG-Teilort kontaktieren, aber nicht im mittleren Teilort eines Ziels. Statt dessen wird in einem Fall GCG am 5'-Ende kontaktiert, und im anderen am 3'-Ende, und in diesen Fällen sind die Fingersequenzen RSDELTR und RSDERKR. Dies sind alternative Konstrukte zur Bindung von GCG im Zielort.
Tabelle 1 Die Scoretabelle
Tabelle 9 Exemplarische ZFP-Datentabelle
Andere Beispiele von Zinkfingerproteinen, die Sequenzen ihrer Finger und passend gebundene Zielorte zur Aufnahme in eine solche Datenbank sind in den Referenzen diskutiert, die im Abschnitt über den Hintergrund zitiert sind.

Claims

Ein Verfahren zur Synthese eines Zinkfingerproteins (ZFP) oder einer Nukleinsäure codierend dasselbe, wobei das ZFP an einen Zielort in einer Zielnukleinsäure bindet, wobei das Verfahren umfasst: (a) Beurteilen von Subsequenzen der Zielnukleinsäure auf Übereinstimmung mit der Formel 5'-NNx aNy bNzc-3', wobei: (i) jedes von (x,a), (y,b) und (z,c) (N,N) oder (G,K) ist; (ii) wenigstens eines von (x,a), (y,b) und (z,c) (G,K) ist; und (iii) N und K mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind; (b) Auswählen einer Teilsequenz, die mit der Formel als ein Zielort in der Zielnukleinsäure übereinstimmt, (c) Konstruieren oder Auswählen eines ZFP, um an den Zielort zu binden, wobei jeder Finger des ZFP, welcher an einen Teil des Zielortes der Form NNGK bindet, Arginin (R) an Position –1 und Aspartat oder Glutamat (D oder E) an Position +2 umfasst; und (d) Synthetisieren des ZFP oder einer Nukleinsäure codierend das ZFP.
Verfahren nach Anspruch 1, wobei mehrere Zielorte ausgewählt werden und mehrere ZFPs konstruiert/ausgewählt und synthetisiert werden, wobei jedes ZFP an einen unterschiedlichen Zielort bindet.
Verfahren nach Anspruch 1 oder 2, wobei die Zielnukleinsäure ein Zielgen umfasst und der Zielort innerhalb des Zielgenes ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei wenigstes zwei von (x,a), (y,b) und (z,c) (G,K) sind.
Verfahren nach einem der Ansprüche 1 bis 3, wobei alle drei (x,a), (y,b) und (z,c) (G,K) sind.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Zinkfingerprotein drei Finger umfasst.
Verfahren nach einem der Ansprüche 1 bis 6, wobei der Zielort ein erstes und zweites Zielsegment umfasst, jedes davon umfassend 5'NNx aNy bNzc3', und das Verfahren weiterhin Auswählen des zweiten Zielsegmentes umfasst.
Verfahren nach Anspruch 7, wobei im zweiten Segment wenigstes zwei von (x,a), (y,b) und (z,c) (G,K) sind.
Verfahren nach Anspruch 8, wobei im zweiten Segment alle drei (x,a), (y,b) und (z,c) (G,K) sind.
Verfahren nach einem der Ansprüche 7 bis 9, wobei das erste und zweite Zielsegment im Zielort durch wenigsten als fünf Basen voneinander getrennt sind.
Verfahren nach Anspruch 10, wobei das erste Zielsegment 5'NNN NNN NNG3' umfasst, das zweite Zielsegment 5'KNx aNY bNzc3' umfasst und null Basen das erste und zweite Zielsegment am Zielort voneinander trennen.
Verfahren nach einem der Ansprüche 7 bis 11, wobei der Syntheseschritt umfasst Synthetisieren eines ersten Zinkfingerproteins, umfassend drei Zinkfinger, die jeweils an die NNx -, aNy- und bNz-Tripletts im Zielsegment binden und weitere drei Finger, die jeweils an die NNx-, aNy- und bNz- Tripletts im zweiten Zielsegment binden, oder eine Nukleinsäure codierend dieselben.
Verfahren nach einem der Ansprüche 1 bis 6, wobei der Syntheseschritt umfasst Synthetisieren eines Zinkfingerproteins, umfassend einen ersten, zweiten und dritten Finger, die jeweils an die bNz-, aNy- und NNx-Tripletts binden.
Verfahren nach Anspruch 13, wobei jeder der ersten, zweiten und dritten Finger unabhängig voneinander ausgewählt oder konstruiert wird.
Verfahren nach Anspruch 13 oder 14, wobei ein Finger aus einer Datenbank konstruiert wird, enthaltend eine Bezeichnung von Zinkfingerproteinen, Unterbezeichnungen von Fingerkomponenten und Nukleinsäuresequenzen, die von den Zinkfingerproteinen gebunden werden, oder wobei ein Finger ausgewählt wird durch Mustern von Zinkfinger-bindenden Proteinen auf eine spezifische Bindung an den Zielort, um einen Zinkfinger zu identifizieren, der an den Zielort bindet.
Verfahren nach einem der Ansprüche 13 bis 15, weiterhin umfassend Inkontaktbringen einer Probe, enthaltend die Zielnukleinsäure mit dem Zinkfingerprotein, wobei das Zinkfingerprotein an den Zielort bindet, um das Vorhandensein der Zielnukleinsäure oder einer bestimmten allelischen Form davon anzuzeigen oder wobei das Zinkfingerprotein an den Zielort bindet, hierbei modulierend die Expression der Zielnukleinsäure.
Verfahren nach einem der Ansprüche 1 bis 16, wobei der Zielort in einer codierenden Region eines Genes auftritt, oder wobei der Zielort innerhalb oder benachbart zu einem Promotor, Enhancer oder einem Transkriptionsstart auftritt oder wobei der Zielort außerhalb eines Promotors, einer regulatorischen Sequenz oder eines Transkriptionsstarts innerhalb der Zielnukleinsäure auftritt.
Computerprogrammprodukt zur Auswahl eines Zielortes innerhalb einer Zielsequenz zum Targeting durch ein Zinkfingerprotein, umfassend: Codemittel zur Bereitstellung einer Zielnukleinsäure zum Targeting durch ein Zinkfingerprotein; Codemittel zur Ausgabe eines Zielortes innerhalb der Zielnukleinsäure, umfassend 5'NNx aNy bNzc3', wobei jedes von (x,a), (y,b) und (z,c) (N,N) oder (G,K) ist; wenigstes eines von (x,a), (y,b) und (z,c) (G,K) ist; und N und K mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind.
System zur Auswahl eines Zielortes innerhalb einer Zielsequenz zum Targeting durch ein Zinkfingerprotein, umfassend: (a) einen Speicher; (b) einen Systembus; (c) einen Prozessor umfassend Mittel geeignet um: eine Zielnukleinsäure zum Targeting durch ein Zinkfingerprotein bereitzustellen; einen Zielort innerhalb der Zielnukleinsäure, umfassend 5'NNx aNy bNzc3' auszugeben, wobei jedes von (x,a), (y,b) und (z,c) (N,N) oder (G,K) ist; wenigstens eines von (x,a), (y,b) und (z,c) (G,K) ist; und N und K mehrdeutige Abkürzungen entsprechend IUPAC-IUB sind.