Car-tech

Häftigaste superdatorer faller hårdast, forskare föreslår

SVERIGES SNABBASTE SKRIVARE...

SVERIGES SNABBASTE SKRIVARE...

Innehållsförteckning:

Anonim

Eftersom superdatorer växer kraftigare blir de också mer utsatta för misslyckande tack vare den ökade mängden inbyggd komponent. Några forskare vid den senaste SC12-konferensen förra veckan i Salt Lake City, Utah, erbjöd möjliga lösningar på detta växande problem.

Dagens högpresterande datorer (HPC) kan ha 100 000 noder eller mer - med varje nod byggd från flera komponenter i minne, processorer, bussar och andra kretsar. Statistiskt taget kommer alla dessa komponenter att misslyckas vid någon tidpunkt, och de stoppar verksamheten när de gör det, säger David Fiala, en doktorsstudent vid North Carolina State University, under ett samtal på SC12.

Problemet är inte en ny, förstås. När Lawrence Livermore National Laboratory 600-nods ASCI (Accelerated Strategic Computing Initiative) White Supercomputer gick online 2001, hade det en genomsnittlig tid mellan misslyckanden (MTBF) på bara fem timmar, tack delvis till komponentfel. Senare avstämningsansträngningar hade förbättrat ASCI Whites MTBF till 55 timmar, säger Fiala.

Men när antalet superdatornoder växer, så kommer problemet också. "Det måste hända att det blir värre när vi flyttar till exascale", säger Fiala, och hänvisar till hur superdatorer det närmaste decenniet förväntas ha tio gånger den beräkningskraft som dagens modeller gör.

Dagens tekniker för att hantera systemfel kan inte skala mycket bra, sade Fiala. Han citerade kontrollpunkt, där ett körprogram tillfälligt stoppas och dess tillstånd sparas på disken. Om programmet sedan kraschar, kan systemet starta om jobbet från den sista kontrollpunkten.

NCSUDavid Fiala Problemet med kontrollpunkten, enligt Fiala, är att när antalet noder växer, är antalet systemkostnader behövs för att göra checkpointing växer också - och växer i en exponentiell takt. På en superdator på 100 000 nod, till exempel, kommer endast cirka 35 procent av verksamheten att vara inblandad i arbetet. Resten kommer att tas upp vid kontrollpunkten och om Fiala ska uppskattas av systemet, beräknas Fiala.

På grund av all ytterligare maskinvara som behövs för exascale-system, som kan byggas från en miljon eller flera komponenter, kommer systemets tillförlitlighet att ha Förbättras 100 gånger för att hålla sig till samma MTBF som dagens superdatorer tycker om, berättar Fiala.

Gamla bra råd: säkerhetskopiera data

Fiala presenterade teknik som han och andra forskare utvecklat som kan bidra till att förbättra tillförlitligheten. Tekniken tar itu med problemet med tyst data korruption, när system gör oönskade fel att skriva data till disk.

I grunden består forskarens inställning av att köra flera kopior, eller "kloner" i ett program samtidigt och sedan jämföra svaren. Programmet, som kallas RedMPI, körs i samband med Message Passing Interface (MPI), ett bibliotek för att dela upp program som körs över flera servrar, så att de olika delarna av programmet kan köras parallellt.

RedMPI avlyssnar och kopierar varje MPI meddelande som en ansökan skickar och skickar kopior av meddelandet till klonen (eller klonerna) i programmet. Om olika kloner beräknar olika svar kan numren räknas om på nytt, vilket sparar tid och resurser från att köra hela programmet igen.

"Implementering av redundans är inte dyrt. Det kan vara högt i antalet kärnantal som behövs, men det undviker behovet av omskrivningar med checkpoint omstartar, säger Fiala. "Alternativet är naturligtvis att helt enkelt återställa jobb tills du tror att du har rätt svar."

Fiala rekommenderade att köra två säkerhetskopior av varje program, för trippel redundans. Även om du kör flera kopior av ett program, skulle det i första hand ta upp mer resurser, med tiden kan det faktiskt bli effektivare, eftersom programmen inte behöver återställas för att kontrollera svaren. Det kan också hända att checkpunkter inte behövs när flera kopior körs, vilket också skulle spara på systemresurser.

UCSCEthan Miller

"Jag tror att tanken att göra redundans är en bra idé." För mycket stora beräkningar, som involverar hundratusentals noder, finns det verkligen en chans att fel kommer att krypa in ", säger Ethan Miller, en datavetenskap professor vid University of California Santa Cruz, som deltog i presentationen. Men han sa att tillvägagångssättet inte kan vara lämpligt med tanke på den mängd nätverkstrafik som sådan redundans kan skapa. Han föreslog att kör alla applikationer på samma uppsättning noder, vilket skulle kunna minimera internodtrafik.

I en annan presentation presenterade Ana Gainaru, en doktorand vid University of Illinois i Urbana-Champaign, en analys av logg filer för att förutsäga när systemfel skulle inträffa.

Arbetet kombinerar signalanalys med datautvinning. Signalanalys används för att karakterisera normalt beteende, så när ett fel uppstår kan det lätt upptäckas. Data mining söker korrelationer mellan separata rapporterade misslyckanden. Andra forskare har visat att flera misslyckanden ibland är korrelerade med varandra, eftersom ett misslyckande med en teknik kan påverka prestanda i andra, enligt Gainaru. När ett nätverkskort misslyckas kommer det snart att hysa andra systemprocesser som är beroende av nätverkskommunikation.

Forskarna fann att 70 procent av korrelerade misslyckanden ger ett fönstret möjlighet på mer än 10 sekunder. Med andra ord, när det första tecknet på ett fel har upptäckts kan systemet ha upp till 10 sekunder för att rädda sitt arbete eller flytta arbetet till en annan nod innan ett mer kritiskt fel uppstår. "Failure prediction kan slås samman med andra feltolerans tekniker", säger Gainaru.

Joab Jackson täcker företagsprogramvara och allmänt teknikbrytande nyheter för IDG News Service. Följ Joab på Twitter på @Joab_Jackson. Joabs e-postadress är [email protected]