Jak znaleźć igłę w stogu siana Rola obliczeń komputerowych w eksperymentach fizyki wysokich energii Piotr Golonka CERN EN/ICE-SCD.

1 Jak znaleźć igłę w stogu siana Rola obliczeń komputerow...
Author: Zbigniew Wilk
0 downloads 2 Views

1 Jak znaleźć igłę w stogu siana Rola obliczeń komputerowych w eksperymentach fizyki wysokich energii Piotr Golonka CERN EN/ICE-SCD

2 P. Golonka2 Plan  Co jest igłą a co stogiem siana... między teorią a doświadczeniem  Seria złożonych problemów Zbieranie danych Opracowywanie danych Analiza danych  Technologie Klastry, GRID

3 P. Golonka3 Co jest stogiem siana? - LHC Genewa protony 3.5+3.5 TeV = 7·10 12 eV

4 P. Golonka4 Co jest stogiem siana?... i detektory LHC Eksperyment Interesujące oddziaływania proton-proton

5 P. Golonka5 Co jest igłą ?  Większość zderzeń to zwykłe, dobrze znane oddziaływania.  Te interesujące które niosą informacje o nieznanych zjawiskach są bardzo rzadkie. Typowo 1 przypadek na 100 mln!  Jak „zauważyć” taki przypadek w aparaturze i zapisać go na taśmę gdy mamy tak duży strumień danych ≡ tak mało czasu na analizę „on-line”?

6 P. Golonka6 Czego szukamy w eksperymentach? Łamanie CP w układzie mezonów pięknych (B) Zjawiska rzadkie ~ 10 -4 – 10 -8 Pozostałe eksperymenty na LHC mają swoje zestawy „igieł” Cząstka Higgsa (ATLAS, CMS) Supersymetria (ATLAS, CMS) Plazma kwarkowo-gluonowa (ALICE)... Przykład: eksperyment LHCb

7 P. Golonka7 Przykład: rekonstrukcja śladów cząstek Symulacja komputerowa danych z 1 przypadku w detektorze wewnętrznym eksperymentu ATLAS Zagadka: znajdź 4 proste ślady

8 P. Golonka8 Przykład: rekonstrukcja śladów cząstek Rozwiązanie: Rozpad cząstki Higgsa na 4 miony: H → 4μ

9 P. Golonka9 Analiza danych: co zobaczy Fizyk: Cząstki Higgsa o masie ~150 GeV Masa inwariantna 4 leptonów [GeV] Tło od innych rozpadów dających 4 miony

10 P. Golonka10 Teoria, doświadczenie i... komputery Teoria Doświadczenie (?) = Metody komputerowe

11 P. Golonka11 “doświadczenie = teoria” (?) Generator(y) przypadków Dane Filtr przypadków Symulacja detektora

12 P. Golonka12 Symulacja i prawdziwy eksperyment Rekonstrukcja Analiza fizyczna W efekcie modelowania otrzymujemy dane symulowane w formacie takim jakie będą napływać z elektroniki odczytu aparatury eksperymentalnej. Symulacja 1.Generator przypadków (teoria) 2.Modelowanie odpowiedzi aparatury (Geant4) Prawdziwy eksperyment

13 P. Golonka13 Modelowanie aparatury Detektor wierzchołka Detektor RICH Identyfikacja cząstek Pełny spektrometr

14 P. Golonka14 Symulacja zjawisk w detektorach Slajd ze strony www eksperymentu CMS

15 P. Golonka15 Co jest stogiem siana  Przecięcia pęków wiązek: co 25 nanosekund (częstotliwość LHC: 40 MHz)  Nie wszystkie “pęczki” są pełne – zderzenia: 31 MHz  10 * 10 6 zderzeń w ciągu 1 sekundy widocznych w eksperymencie LHC-b! 10 mln100 tys1l. dysków (300 GB) 3 EB ( 3*10 18 )30 PB300 GBIlość danych 10 14 10 12 10 7 l. przypadków RokDzieńSekunda Dane przepływające przez eksperyment  Dla eksperymentów ATLAS i CMS jest znacznie gorzej ATLAS 2PB/sek ≡ 3 mln CD/s

16 P. Golonka16 Dygresja... ile to bajtów? 1 Megabajt (1MB) zdjęcie z aparatu cyfrowego: 2 MB 1 Gigabajt (1GB) = 1000MB film na nośniku DVD: 6 GB 1 Terabajt (1TB) = 1000GB Największe twarde dyski: 1TB Światowa roczna produkcja książek: 8TB Biblioteka kongresu USA: 10 TB 1 Petabajt (1PB) = 1000TB Roczne składowanie danych w LHC: 14 PB Informacja w WWW: 8PB 1 Eksabajt (1EB) = 1000 PB Roczna produkcja informacji zapisanej cyfrowo: 5 EB Wszystkie dotąd wypowiedziane słowa: 5EB Wszystkie twarde dyski w stanie Minesota, USA (5 mln mieszkańców): 1EB Przepływ cyfrowej informacji w 2002: 18 EB ( z czego 98% to telefony) Ilość danych “widzianych” przez eksperyment na LHC: 3 EB 1 Zetabajt (1ZB) = 1000 EB Roczna konsumpcja informacji w USA: 3.6 ZB (55% to gry komputerowe, 35% telewizja) Źródło: HMI Report 2009, http://hmi.ucsd.edu/howmuchinfo.php ;http://hmi.ucsd.edu/howmuchinfo.php

17 P. Golonka17 Co jest stogiem siana  Przecięcia pęków wiązek: co 25 nanosekund (częstotliwość LHC: 40 MHz)  Nie wszystkie “pęczki” są pełne – zderzenia: 31 MHz  10 * 10 6 zderzeń w ciągu 1 sekundy widocznych w eksperymencie LHC-b! 10 mln100 tys1l. dysków (300 GB) 3 EB ( 3*10 18 )30 PB300 GBIlość danych 10 14 10 12 10 7 l. przypadków RokDzieńSekunda  Zapis wszystkich przypadków jest niemożliwy  Na każdy przypadek należy jednak „zerknąć” i zadecydować czy jest interesujący. Do „przeglądania” przypadków służy system wyzwalania czyli filtracji przypadków ( tzw. tryger). Dane przepływające przez eksperyment  Dla eksperymentów ATLAS i CMS jest znacznie gorzej ATLAS 2PB/sek ≡ 3 mln CD/s

18 P. Golonka18 Zbieranie danych - system wyzwalania  Zadaniem systemu wyzwalania jest przede wszystkim jak najszybsze odrzucanie zbędnych przypadków (a nie wybieranie tych interesujących).  W kolejnych stopniach filtrowania mamy do dyspozycji coraz więcej czasu na dokładniejszą analizę przypadków zaakceptowanych i dokładniejsze odrzucanie. TAK NIE ? 1 ms 10 ms

19 P. Golonka19 Zbieranie danych 30 MHz 2 kHz 35 GB/s 2·10 10 przyp./rok 1 MHz HLT (algorytmy) Wyższy stopień wyzwalania 1 MHz → 1μs/przypadek. W ciagu 1 μs nie można nawet zdekodowac danych Co zrobic ??? 1000 procesorów → 1 ms/przypadek Możliwa staje się rekonstrukcja sladow w detektorze wierzcholka w rzucie rφ L0 (hardware) Wstępny poziom wyzwalania

20 P. Golonka20 Farma procesorów on-line Force10 E1200: 1260 portów GbE Przepustowość 50 GB/s 1 MHz na wejściu → 30 GB/s 1000 CPU 2 kHz na wyjściu Zapis 250 MB/s 1 m

21 P. Golonka21 Igła czy stóg siana? LHC Eksperymenty Interesujące oddziaływania p-p 15 Petabajtów / rok przefiltrowanych danych z czterech eksperymentow na LHC Filtrowanie Redukcja > 10 5 3 Eksabajty/rok 15 Petabajtów/rok

22 P. Golonka22 Analiza danych  Analiza danych zapisanych na taśmy Przypadki przefiltrowane  Niespotykane dotąd wyzwania ~kilkanaście PB danych na rok 200 tys procesorów 10 tys dysków  Skoncentrowanie infrastruktury w jednym miejscu jest niesłychanie trudne (i niecelowe bo blokuje rozwój innych ośrodków). Instalacja, zasilanie, chłodzenie, obsługa systemów operacyjnych i oprogramowania  Konieczny model rozproszonych obliczeń czyli zespól współpracujących ze sobą farm komputerowych. Czy można jednak stworzyć coś bardziej uniwersalnego co byłoby przydatne także dla innych dziedzin?

23 P. Golonka23 GRID – globalny komputer  WWW – przewrót w dostępie do informacji (wynalezione w CERN). Jednolity dostęp do informacji bez względu na miejsce na Ziemi.  GRID – jednolity dostęp do zasobów obliczeniowych. GRID widziany przez każdego użytkownika jako jeden wielki komputer. Dobra platforma współpracy dla dużych projektów.  Wspólne narzędzia i dane, dostęp do mocy obliczeniowej. Analogia z siecią elektryczna (także w przypadku opłat za pobraną moc obliczeniowa)  Pierwszą udaną inicjatywą na dużą skalę były obliczenia w ramach projektu SETI (Search for Extra-Terrestrial Intelligence)  Każdy posiadacz PC mógł udostępnić moc obliczeniowa np. w nocy i uruchomić program analizujący sygnały przychodzące z kosmosu.  Projekt zaoszczędził wiele milionów $

24 P. Golonka24 Ogólnoświatowa sieć GRID  EGEE jest największym ogólnoświatowym projektem GRID Obecnie ponad 80 tys procesorów 300 ośrodków naukowych w 50 krajach na całym świecie 10 000 użytkowników 100 tys zadań wykonywanych jednocześnie 15 PB przestrzeni dyskowej  Koordynatorem projektu jest CERN  Fizyka cząstek jest głównym użytkownikiem (największe potrzeby)

25 P. Golonka25 Univ. A Lab. C Univ. B Lab. A Univ. C Lab. B Univ. D Tier 2 Niemcy Tier 1 USA UK Francja Włochy Taipei? CERN Tier 1 Japonia Struktura hierarchiczna (Multi Tier) Tier 0 Tier 3 (Departament)

26 P. Golonka26 Struktura hierarchiczna (Multi Tier)

27 P. Golonka27 GTS 1,6 Gb/s GDAŃSK POZNAŃ ZIELONA GÓRA KATOWICE KRAKÓW LUBLIN WARSZAWA BYDGOSZCZ TORUŃ CZĘSTOCHOWA BIAŁYSTOK OLSZTYN RZESZÓW Bielsko-Biała GÉANT 10+10 Gb/s KOSZALIN SZCZECIN WROCŁAW ŁÓDŹ KIELCE PUŁAWY OPOLE RADOM BASNET 34 Mb/s CESNET, SANET GÉANT / TELIA 2x2,5 Gb/s DFN 10 Gb/s Gorzów MAN 10 Gb/s (1 lambda) 2 x 10 Gb/s 1 Gb/s CBDF 10 Gb/s PIONIER’S FIBERS Polska infrastruktura WLCG Tier1 FZK Karlsruhe Tier2 PCSS Poznań Tier2 ICM Warszawa Tier2 ACK Cyfronet Kraków

28 P. Golonka28 Więcej informacji...  http://www.gridcafe.org http://www.gridcafe.org  http://lcg.web.cern.ch/lcg/monitor.htm http://lcg.web.cern.ch/lcg/monitor.htm  Real-Time grid monitor: http://gridportal.hep.ph.ic.ac.uk/rtm/ http://gridportal.hep.ph.ic.ac.uk/rtm/

29 P. Golonka29 Technologie: farmy PC  Początkowo CERN zdecydował zakupić komputery w formie zwykłych PC dostępnych w sklepach.  W międzyczasie technologie RACK i BLADE osiągnęły konkurencyjne ceny.  Obecnie w dużych ośrodkach wygrywają technologie specjalistyczne RACK i BLADE Hala w CERN przygotowana do montażu PC w szafach RACK PC typu RACK i BLADE Pierwsze klastry w CERN w standardowej technologii. Serwery typu “rack”w centrum komputerowym CERN

30 P. Golonka30 Technologie - c.d.  O(10000) procesorów (rdzeni) Kilka procesorów w komputerze, kilka rdzeni w procesorze, wirtualizacja...  Ultra-szybkie połączenia sieciowe 1, 10Gb Ethernet Fiber Channel  Składowanie danych: taśmy np. robot: Sun StorageTek SL8500  Do 300 tys taśm, 500 GB każda  Do 2048 napędów o prędkości 100MB/s  System operacyjny: CERN Scientific Linux

31 P. Golonka31 CERN openlab Partnerstwo z czołowymi firmami informatycznymi: Najnowsze procesory i technologie sieciowe Bazy danych Automatyka przemysłowa Bezpieczeństwo

32 P. Golonka32 WWW:Tim Berners-Lee, 1989-2009! CERNET: 1984 (first European TCP/IP network) World Wide Web, europejski Internet http://info.cern.ch/www20 / http://info.cern.ch/www20 /

33 P. Golonka33 Podsumowanie  Eksperymenty na LHC dostarczają ogromnej ilości danych.  Przypadki których szukamy zdarzają się bardzo rzadko, ~1 na 100 mln.  Jedynie dzięki komputerom udaje się zebrać, przetworzyć i analizować dane.  CERN stymuluje rozwój nowych technologii informatycznych (WWW, GRID)