PRZEWIDYWANIE STRUKTUR RNA

1 PRZEWIDYWANIE STRUKTUR RNAMaciej Szymański ...
Author: Wacław Marszałek
0 downloads 0 Views

1 PRZEWIDYWANIE STRUKTUR RNAMaciej Szymański

2 1958

3 1970

4 1980s

5 Około 98% sekwencji DNA podlegających transkrypcji w genomach ssaków nie koduje białek3'-UTR, 5'-UTR introny ncRNA (~50% transkryptów)

6 Transcriptional activity of genomes

7 Transcriptome

8

9 Struktury RNA w regulacji ekspresji genówRegulacja transkrypcyjna Ryboprzełączniki zmieniające strukturę w zależności od warunków regulują ekspresję wielu genów bakteryjnych Regulacja potranskrypcyjna TAR i RRE są strukturami kluczowymi dla propagacji HIV Struktury 3’- i 5’-UTR są odpowiedzialne za regulację translacji niektórych mRNA IRES (internal ribosome entry site) umożliwia inicjację translacji niezależną od rozpoznania 5’-końcowej modyfikacji i udziału białkowych czynników inicjacyjnych

10 RNA jako termosensor SD StartU Listeria monocytogenes geny odpowiedzialne za wirulencję kontrolowane są przez aktywator transkrypcji PrfA, którego ekspresja zachodzi w temperaturze 37ºC. W niższych temperaturach 5‘-UTR prfA mRNA tworzy strukturę blokującą sekwencję Shine-Dalgarno uniemożliwiając translację białka PrfA i w konsekwencji transkrypcję genów wirulencji. Mutacje destabilizujące lub stabilizujące proponowaną strukturę drugorzędową prowadzą do odpowiednio obniżenia lub podwyższenia temperatury aktywacji. SD Start

11 RNA jako chemosensor U bakterii 5’-UTRy mRNA kodujących białka związane z syntezą i transportem FMN (mononukleotyd flawiny) tworzą struktury drugorzędowe odpowiedzialne za regulację ich ekspresji na poziomie transkrypcji. Związanie FMN do tej struktury powoduje zmianę konformacji i terminację transkrypcji.

12 Riboswitches RFN flavin mononucleotideriboflavin biosynthesis and transport THI thiamin pyrophosphate thiamin biosynthesis and transport B12 adenosylcobalamine cobalamin biosynthesis and transport, other genes S-box adenosyl methionine methionine biosynthesis and transport G-box purines purine metabolism and transport L-box lysine lysine biosynthesis, catabolism and transport glmS glucosamine-6-phosphate glucosamine-6-phosphate synthetase (glmS) genes gcvT glycine glycine metabolism

13 Niekodujące RNA DsrA RNA: 87 nt induced in low temperaturestimulates expression of RpoS (stress s factor of RNA polymerase) OxyS RNA: 107 nt induced by oxidative stress negative regulator of RpoS, and H-NS (global transcriptional factor)

14 Struktura RNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA UUUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA

15 Struktura drugorzędowa RNAZbiór par nukleotydów Sekwencja RNA R o długości n można zapisac jako uporządkowany ciąg rybonukleotydów: R = r1; r2; r3; : : : ; rn, gdzie ri jest i-tym rybonukleotydem. Każdy ri należy do zbioru {A;C; G;U} (bez uwzględnienia modyfikowanych nukleotydów). Struktura drugorzędowa S sekwencji R jest zbiorem uporządkowanych par i.j, 1  i < j  n takich że: 1. j − i > 3 (pętle typu hairpin nie mogą być krótsze niż 3 nukleotydy) 2. jeśli i.j i i’.j’ są dwoma parami zasad: i = i’ i j = j’ (i.j oraz i’.j’ są tą samą parą) i < j < i’ < j’ (i.j poprzedza i’.j’) i < i’ < j’ < j (i.j obejmuje i’.j’). Warunek c) wyklucza pseudowęzły (pseudoknots).

16 Pseudowęzły Pseudowęzły tworzone są gdy dwie pary zasad, i.j i i’.j’ spełniają warunek i < i’ < j < j’ Pseudowęzły nie są uwzględniane w algorytmach przewidywania struktury drugorzędowej ze względu na brak parametrów energetycznych. Są to faktycznie elementy struktury trzeciorzędowej i mogą być znajdowane we wcześniej obliczonych strukturach drugorzędowych lub metodami porównawczej analizy sekwencji. j i’ j’ i

17 RNaseP RNA Group I intron

18 Metody przewidywania struktur drugorzędowych RNADla pojedynczych łańcuchów RNA maksymalizacja liczby sparowanych nukleotydów minimalizacja energii swobodnej prawdopodobieństwo tworzenia par zasad Dla grup homolgicznych cząsteczek metody porównawcze (kowariacje) metody statystyczne

19 Algorytm Ruth Nussinov (1978)Poszukiwanie optymalnej struktury zawierającej maksymalną liczbę sparowanych nukleotydów Dozwolone są struktury zawierające pętle typu hairpin o dowolnej długości (w rzeczywistości dopuszczalne są pętle przynajmniej 3- nukleotydowe) Możliwe są struktury zawierające izolowane pary zasad (helisy o długości 1-bp)

20 Algorytmy oparte o minimalizację energii swobodnejZałożenie: cząsteczki RNA przyjmują strukturę o najniższej możliwej energii Najprostszą drogą jest poszukiwanie struktury o minimalnej energi z zastosowaniem prostych parametrów enegetycznych przypisanych poszczególnym parom zasad w zależności od siły wiązania (liczby wiązań wodorowych). -1 kcal/M G-U -2 kcal/M A-U -3 kcal/M G-C Energia, E(S) dla całej struktury jest sumą energii poszczególnych par zasad i.j, e(ri,rj)

21 mfold (Zuker & Stadler 1981, Zuker 1989)W programie mfold parametry energetyczne nie są przypisane parom zasad ale pętlom, stanowiącym regiony struktury drugorzędowej ograniczone jedną lub większą liczbą par zasad. Każdą strukturę drugorzędową można przedstawić jako zbiór pętli Pętle zamknięte jedną parą zasad i.j zwane są pętlami typu spinki do włosów (hairpin loop) a ich wielkość j – i – 1  3

22 mfold (Zuker & Stadler 1981, Zuker 1989)Pętle zamknięte dwoma parami zasad i.j i i’.j’ dzielą się na trzy typy: stacked pairs jeśli i’ – i – 1 = 0 oraz j – j’ – 1 = 0 wybrzuszenie (bulge) jeśli i’ – i – 1 > 0 lub j – j’ – 1 > 0 pętla wewnętrzna (interior loop) jeśli i’ – i – 1 > 0 oraz j – j’ – 1 > 0 a b c

23 mfold (Zuker & Stadler 1981, Zuker 1989)Pętle zamknięte większą liczbą par zasad zwane są pętlami wielorozgałęzionymi (multibranch loops) Każdą strukturę drugorzędowa można opisać jako zbiór pętli należących do jednego z w/w pięciu typów oraz niesparowanych regionów przy końcach.

24 mfold (Zuker & Stadler 1981, Zuker 1989)mfold generuje zbiór struktur, które ewaluowane są w oparciu o parametry energetyczne (empiryczne i teoretyczne) dla poszczególnych pętli. Wyliczona energia jest sumą energii wszystkich elementów składowych. Stack -3.40 External closing pair is G 1-C 14 -1.40 External closing pair is C 2-G 13 -1.30 External closing pair is G 3-U 12 -2.10 External closing pair is A 4-U 11 Helix -8.20 5 base pairs Hairpin loop 0.20 Closing pair is G 5-C 10

25

26 Problemy: Przewidywane struktury o minimalnej energii rzadko odpowiadają strukturom uzyskanym z filogenetycznej porównawczej analizy sekwencji Energie wyliczone dla filogenetycznych struktur tym bardziej odbiegają od przewidywanych wartości minimalnych im dłuższe są analizowane sekwencje Liczba suboptymalnych struktur drugorzędowych jest bardzo duża co nie pozwala (przy obecnych ograniczeniach mocy obliczeniowej) na ewaluacje wszystkich możliwości. Parametry energetyczne nie uwzględniają oddziaływań trzeciorzędowych takich jak niestandardowe pary zasad , pseudowęzły, oddziaływania trójek nukleotydów, któr mogą mieć wpływ na tworzenie struktury drugorzędowej w komórce Długie lańcuchy RNA niekoniecznie muszą przyjmować strukturę o minimalnej energii. Ich konformacja może być wymuszona kinetyką procesu tworzenia stuktury drugorzędowej, co komplikuje obliczenia w stopniu nie pozwalającym na praktyczną implementację.

27 mfold server Pełna wersja programu Zukera dostępna sieciowo poprzez formularz na stronie WWW Obecna wersja pozwala na przewidywanie struktur RNA o długości do 6000 nukleotydów (800 interaktywnie) Wyniki prezentowane są w postaci graficznej (struktury, dot ploty) w różnych formatach Użytkownik ma możliwość zmiany niektórych parametrów programu, co pozwala na poszerzenie lub zawężenie zakresu przewidywanych struktur suboptymalnych

28 mfold server opcje percent suboptimality - wartość procentowa energii optymalnej struktury do której generowane są struktury alternatywne (w praktyce dla długich łańcuchów ograniczona do –12 kcal/M) upper bound number of computed foldings – określa maksymalną dozwoloną liczbę struktur (domyślna wartość 50) window – określa ile i jak zbliżonych (podobnych) do siebie struktur ma być wygenerowane. Niższa wartość powoduje zwiększenie liczby struktur suboptymalnych nieznacznie od siebie róznych. Domyślnie ustawiany jest w zależności od długości sekwencji. 0- 29 nt W=0; nt W=1; nt W=2; nt W=3; nt W=5; nt W=7; nt W=8; nt W=10; nt W=11; nt W=12; nt W=15; nt W=20 > 1999 nt W=25

29 mfold server opcje maximum interior/bulge loop size – pozwala na ograniczenie wielkości pętli wewnętrznych i wybrzuszeń (domyślnie 30) maximum asymmetry of an interior bulge loop size – dla wybrzuszeń jest to maksymalna ich długość, dla pętli wewnętrznych określa jaka jest dopuszczalna różnica długości ich fragmentów jednoniciowych maximum distance between paired bases – pozwala na ograniczenie wielkości domen zamkniętych jedną parą zasad (domyślnie bez ograniczeń) temperature – dostepna tylko w wersji 2.3, w wersji 3.1 stała - 37°C

30 mfold server opcje Dodatkowe opcje pozwalają na ograniczenie liczby struktur przez wymuszenie parowania lub pozostawienia jako jednoniciowych określonych nukleotydów lub fragmentów sekwencji. Wrunki te wprowadz się w polu constraint information wymusznie parowania odcinka sekwencji F i 0 k gdzie i – pozycja pierwszego nukleotydu; k – długość odcinka F – nukleotydy 7, 8, 9 i 10 muszą być sparowane wymuszanie nieprzerwanego odcinka dwuniciowego F i j k gdzie i oraz j definiują pierwszą parę zasad a k określa ile kolejnych par zasad ma zostać wymuszona F – w strukturach powinien wystąpić region dwuniciowy zawierający pary zasad 5-34, 6-33, 7-32 i 8-31 W podobny sposób definiuje się regiony które mają pozostać jednoniciowe zastępując F na początku definicji P.

31 S. cerevisiae tRNAPhe F F F F

32 Metody probabilistyczneVienna RNA package RNAfold oblicza prawdopodobieństwo tworzenia par zasad w strukturze drugorzędowej w oparciu o analizę wszystkich możliwych alternatywnych konformacji. Wynikiem nie jest pojedyncza optymalna struktura lecz zbiór wartości prawdopodobieństwa dla poszczególnych par. Dodatkowo (niezależnie) generowana jest struktura o najniższej energii w oparciu o parametry identyczne z tymi wykorzystywanymi przez mfold.

33 RNAfold; S. cerevisiae tRNAPhe

34 Sequence design server Inverse folding: optymalizacja sekwencji wg parametrów energetycznych lub statystycznych do zadanej struktury drugorzędowej Dane wejściowe: struktura druogorzędowa w postaci zapisu nawiasowego (do 100 pozycji) Wynik: optymalna sekwencja przyjmująca zadaną strukturę GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGG (((((((..(((( )))).((((( ))))) AGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA .....((((( ))))))))))))....

35 tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAOpt GCGGAUGUAGCUCAGUUGUGAGAGCGCCAGAGAGAUGA tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Opt UCUGGAAGUACUGUGUUCGAUCCACAGCAUUCGCACCA tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA Opt CCGAAGUAUGUCCUCGUAACUGGGCUGGAUAGAACGCA tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Opt UAUCCCGAAACUGUAACGCUAAUACAGACUUUGGCACA

36 ILM server Przewidywanie struktur drugorzędowych zawierających pseudowęzły. Dane wejściowe: pojedyncza sekwencja lub alignment homologicznych sekwencji w formacie FASTA (do 10 kb) Wyniki prezentowane w kilku formatach (m.in. pliki ct, dot ploty)

37 ILM server: 5S rRNA Dane wejściowe: Alignment 4 bakteryjnych sekwencji 5S rRNA UGCCUGGCGGCCAUAGUGCGGUGGUCCCACCUGACCCCAUGCCGAACUCAGAAGUGAAAC 60 ....((((((((((...((( ((((((( ))))..))).... ((( ))) GCUGUAGCGCCGAUGGUAGUGUGGGGUCUCCCCAUGUGAGAGUAGGGAACUGCCAGGCAU 120 ..))) ))))..((((((((...)))))))) )))))).....

38 tRNA RNAfold mfold ILM

39 E. coli RydC RNA mfold RNAfold ILM

40 Przewidywanie struktur dla zbiorów homologicznych sekwencjiZakłada się, że RNA pełniące takie same funkcje w wiekszym stopniu zachowują struktury drugorzędowe niż sekwencje. Analiza większej liczby przypadków sprawia, że przewidywania są bliższe rzeczywistości Metody porównawczej analizy sekwencji Metody mieszane z zastosowaniem algorytmów stosowanych dla pojedynczych cząsteczek i analizy porównawczej

41 Mutual information Zawartość informacyjna dwóch kolumn alignmentu sekwencji RNA opiera się na założeniu, że jeśli dane dwie kolumny i i j są niezależne (nie obejmują nukleotydów tworzących pary zasad) to częstotliwość występowania par nukleotdów N1,N2 odpowiednio w pozycjach i i j - fi,j(N1,N2) odpowiada w przybliżeniu iloczynowi częstotliwości wystepowania N1 w pozycji i - fi(N1) i częstotliwości wystepowania N2 w pozycji j - fj(N2) . A zatem: Jeśli zmiany w kolumnach są ze sobą związane wartość ta będzie większa od 0.

42 Mutual information Częstotliwości nukleotydów N1 i N2 w pozycjach i oraz j Częstotliwość występowania pary N1,N2

43 kolumny 1 i 15 GAAGAGUAUGUCUUC GGAGUGU-UGACUCC GCAGCGUGUGGCUGCGUAGAGUAUGUCUAC GCAGAGU-UGUCUGC ***** ***** f1,15(G,C) = 1 f1(G) = 1 f15 (C) = 1 M1,15 = 1 x log21 = 0 kolumny 2 i 14 f2,14(A,U) = 0.2 f2,14(G,C) = 0.2 f2,14(C,G) = 0.4 f2,14(U,A) = 0.2 f2(A) = 0.2 f2(C) = 0.4 f2(G) = 0.2 f2(U) = 0.2 f14 (A) = 0.2 f14(C) = 0.2 f14 (G) = 0.4 f14 (U) = 0.2 M2,14 = 0.2 x log x log x log x log25 = 3 x = 1.91

44 Mutual information: 5S rRNA316 sekwencji 5S rRNA Eukaryota

45 Przewidywanie zachowawczych elementów struktury drugorzędowejHofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res. 26:

46 Consensus structures of the HIV-1 RRE (Rev Resposnive Element) region from a sets of 13 and 21 sequences. The main hairpins are present in both predictions; the only difference is hairpin IIa which is supported by a single compensatory base pair in the larger data set. The predictions are consistent with an experimentally supported structure that also contains IIa. Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res. 26:

47 Alifold server http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgiPrzewidywanie pojedynczych struktur, dla grup homologicznych sekwencji, wprowadzanych jako alignment w formacie Clustal. Wyniki: struktura kompatybilna z wprowadzonym alignmentem sekwencji, prawdopodobieństwa występowania poszczególnych par zasad w postaci wykresu (dot plot) oraz pliku tekstowego.

48 Alifold server: 5S rRNA Alignment 11 sekwencji eukariotycznych 5S rRNA11 sequence; length of alignment 122 alifold output % CG:6 GC:1 UG:1 AU:2 UA:1 % CG:4 GC:1 UG:1 AU:1 UA:4 % CG:2 GC:2 AU:1 UA:6 % CG:7 UG:2 AU:1 UA:1 % CG:3 GC:5 AU:3 % CG:6 GC:3 UA:2 % GC:1 AU:1 UA:9 % CG:2 GC:8 GU:1 % CG:9 GC:1 UA:1 % GC:8 GU:1 AU:2 % CG:4 GC:2 GU:1 UG:2 UA:1 % CG:3 GC:8

49

50 CARNAC http://bioinfo.lifl.fr/carnac/Przewidywanie struktur dla grup homologicznych sekwencji RNA z wykorzystaniem kombinacji metod minimalizacji energii, analizy porównawczej i zachowawczości poszczególnych par zasad. Nie wymaga wstępnego generowania alignmentów. Wyniki: pojedyncze struktury dla poszczególnych sekwencji prezentowane w postaci graficznej oraz plików ct.

51 CARNAC: 5S rRNA

52 Przktyczne aspekty przewidywania struktur drugorzędowych RNAidentyfikacja regionów jednoniciowych jako celów dla strategii inaktywacji genów w oparciu o oddziaływania antysensowe (rybozymy, RNAi) identyfikacja możliwych struktur regulatorowych analiza RNA uzyskanych metodami selekcji in vitro

53 Podsumowanie Nie ma jednej uniwersalnej metody pozwalającej na jednoznaczne określenie struktury drugorzędowej dla każdej sekwencji RNA Najbardziej wiarygodne wynki można uzyskać przy użyciu połączonych metod statystycznych, termodynamicznych i porównawczych z uwzględnieniem danych eksperymentalnych

54

55

56

57

58 Struktura drugorzędowa jako kryterium identyfikacji nowych niekodujących RNA(1)Problem: wyszukiwanie genów niekodujących RNA w sekwencjach genomowych, nie jest możliwe przy wykorzystaniu algorytmów używanych dla identyfikacji genów kodujących białka (brak silnych sygnałów takich jak ORF, wykorzystanie kodonów etc) Założenie: Sekwencje kodujące strukturalne RNA powinny wykazywać się zdolnością do tworzenia struktur drugorzędowych charakteryzujących się większą stabilnością niż sekwencje przypadkowe o tej samej długości. Sekwencje wyceniane są parametrem (Z-score), który określa o ile odchyleń standardowych energia swobodna (lub inny parametr) dla struktury drugorzędowej danej sekwencji (lub jej fragmentu) różni się od średniej wartości uzyskiwanej dla dużej liczby jej permutacji. Le S.-Y et al. (1988) A program for predicting significant RNA secondary stuctures. Comput. Applic. Biosci. 4: Chen J.-H et al. (1990) A computational procedure for assessing the significance of RNA secondary stucture. Comput. Applic. Biosci. 6: 7-18.

59

60 gen tRNA w otoczeniu sekwencji o identycznym składzie nukleotydowym

61 Dla ~98% z 1400 analizowanych sekwencji tRNA Z-score jest niższy od 4Znaczący sygnał pozwalający na detekcję genów RNA w kontekście sekwencji genomowych wymaga wartości Z-score ~5 Dla ~98% z 1400 analizowanych sekwencji tRNA Z-score jest niższy od 4 Z 240 genów RNA innych niż tRNA ~30% wykazuje Z-score wyższy od 4 Rivas E. & Eddy S.R. (2000) Secondary structure alone is generally not statistically significant for the detection of noncoding RNAs. Bioinformatics 16:

62 Lepsze wyniki uzyskuje się stosując programy, wykorzystujące mniej lub bardziej precyzyjne deskryptory lub definicje struktur drugorzędowych RNA dla przeszukiwania sekwencji genomowych pod kątem sekwencji mogących przyjmować opisaną nimi strukturę. tRNA-scan – tRNA sno-scan – snoRNA