Najszybszy superkomputer na świecie ma spore problemy z działaniem
Awarie to kwestia godzin, nie dni.
Superkomputer Frontier to pierwsza maszyna klasy „exascale”, więc budowa nie jest prostym zadaniem. Okazuje się jednak, że sprzęt odmawia posłuszeństwa tak często, że awarie „są kwestią godzin, nie dni”.
„Exascale” oznacza urządzenie zdolne do uruchomienia Crysisa w ponad 30 klatkach na sekundę, a więc wykonujące co najmniej 10 (do potęgi 18) operacji na sekundę (exaFLOPS). Taka wydajność ma być porównywalna z ludzkim mózgiem, więc od dłuższego czasu trwa wyścig o to, kto zbuduje komputer jako pierwszy.
Obecnie liderem jest Oak Ridge National Laboratory, odpowiedzialne właśnie za opisywane Frontier. Placówka bazuje na 64-rdzeniowych procesorach EPYC Trento oraz na układach graficznych Instinct MI250X - oba od AMD. Do tego mostki Slingshot od Hewlett Packard Enterprise (HPE) oraz 21 MW prądu.
Sprzęt buduje właśnie firma HPE. Całość brzmi całkiem dobrze - przynajmniej na papierze - z teoretyczną mocą na poziomie nawet 1,685 exaFLOPS. Pozostaje jednak kwestia problemów technicznych, wywoływanych głównie przez mostki Slingshot i układy MI250X.
- Zajmujemy się problemami sprzętowymi i upewniamy się, że rozumiemy, jakie to kłopoty - mówi szef projektu, Justin Whitt, w rozmowie z InsideHPC. - Przy takiej skali nie obejdzie się bez awarii. Średni czas pomiędzy awariami w systemie o takich rozmiarach to godziny, nie dni.