1 Podstawy i zastosowania bioinformatykiMarek Kudła
2 Sekwencje Nukleotydowe Aminokwasowe4 nukleotydy 4 = 2^ bity informacji Aminokwasowe 20 aminokwasów 2^4 < 20 < 2^5 < 5 bitów informacji Widzimy zatem, że przy translacji zachodzi de facto utrata informacji Kodon – 3 nt = 6 bitów -> aminokwas <5 bitów
3 Podobieństwo Sekwencje nukleotydowe Sekwencje białkoweZawartość identycznych pozycji między dwoma sekwencjami - % identyczności Długość porównywanych sekwencji Czy identyczne pozycje są zgrupowane, czy też rozproszone w alignmencie Sekwencje białkowe Wszystkie powyższe, plus: Podobieństwo pod względem właściwości fizykochemicznych lub kodonów, którymi są kodowane Reszty na konserwatywnych pozycjach – przewidzianych domenach, miejscach katalitycznych.
4 Alignment ATTCAGCT-CCATGC ATTCGGCT-CCA-GC TTTGAGCTTCCATGCPairwise alignment – ścisłe rozwiązanie możliwe ATTCAGCTCCATGC |||| ||| || || ATTCGGCTACA-GC MSA - multiple sequence alingment ATTCAGCT-CCATGC ATTCGGCT-CCA-GC TTTGAGCTTCCATGC
5 Macierz podstawień PAM BLOSSUM
6 Algorytmy tworzenia alignmentów i wyszukiwania sekwencjiNeedleman-Wuensch `70 Smith-Waterman `70 dotplot BLAST `90 SSAHA BLAT FASTA BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 40 bases or more. It may miss more divergent or shorter sequence alignments. It will find perfect sequence matches of 33 bases, and sometimes find them down to 21 bases. BLAT on proteins finds sequences of 80% and greater similarity of length 20 amino acids or more. In practice DNA BLAT works well on primates, and protein blat on land vertebrates. BLAT is not BLAST. DNA BLAT works by keeping an index of the entire genome in memory. The index consists of all non-overlapping 11-mers except for those heavily involved in repeats. The index takes up a bit less than a gigabyte of RAM. The genome itself is not kept in memory, allowing BLAT to deliver high performance on a reasonably priced Linux box. The index is used to find areas of probable homology, which are then loaded into memory for a detailed alignment. Protein BLAT works in a similar manner, except with 4-mers rather than 11-mers. The protein index takes a little more than 2 gigabytes
7 NEEDLEMAN WUENSCH Nic : |
8 Needleman-Wuensch a Smith-Watermanwyjściowo ||||||:|||.||||:||||| Smith-Waterman Alignment lokalny Needleman-Wuensch Alignment globalny ||||||:|||.||||:||||| |..| .| :.:.
9 BLAST
10 Dotplots ATTCAGCTCCATGCT ATTCA-GCTCCATGCTCCATGC Sekwencja 2
11 Sekwencja z domenami powtórzonymi – to samo białko na obu osiachDrosophila melanogaster SLIT
12 Domeny konserwowane ewolucyjnieSekwencja na osi horyzontalnej to ludzki antygen powierzchniowy MS2. Sekwencja na osi pionowej to adamalizyna II – metaloproteaza z jadu Crotalus adamanteus. Obie sekwencje posiadają domenę cynkowej proteazy.
13 Wykrywanie egzonów i intronówSekwencja na osi horyzontalnej – sekwencja nukleotydowa kalmoduliny z Apergillus nidulans translowana w trzech ramkach odczytu. Na osi pionowej – sekwencja białkowa tegoż białka.
14 Regiony niskiej złożoności