Häftigaste superdatorer faller hårdast, forskare föreslår

SVERIGES SNABBASTE SKRIVARE...

Innehållsförteckning:

Gamla bra råd: säkerhetskopiera data

Eftersom superdatorer växer kraftigare blir de också mer utsatta för misslyckande tack vare den ökade mängden inbyggd komponent. Några forskare vid den senaste SC12-konferensen förra veckan i Salt Lake City, Utah, erbjöd möjliga lösningar på detta växande problem.

Dagens högpresterande datorer (HPC) kan ha 100 000 noder eller mer - med varje nod byggd från flera komponenter i minne, processorer, bussar och andra kretsar. Statistiskt taget kommer alla dessa komponenter att misslyckas vid någon tidpunkt, och de stoppar verksamheten när de gör det, säger David Fiala, en doktorsstudent vid North Carolina State University, under ett samtal på SC12.

Problemet är inte en ny, förstås. När Lawrence Livermore National Laboratory 600-nods ASCI (Accelerated Strategic Computing Initiative) White Supercomputer gick online 2001, hade det en genomsnittlig tid mellan misslyckanden (MTBF) på bara fem timmar, tack delvis till komponentfel. Senare avstämningsansträngningar hade förbättrat ASCI Whites MTBF till 55 timmar, säger Fiala.

Men när antalet superdatornoder växer, så kommer problemet också. "Det måste hända att det blir värre när vi flyttar till exascale", säger Fiala, och hänvisar till hur superdatorer det närmaste decenniet förväntas ha tio gånger den beräkningskraft som dagens modeller gör.

Dagens tekniker för att hantera systemfel kan inte skala mycket bra, sade Fiala. Han citerade kontrollpunkt, där ett körprogram tillfälligt stoppas och dess tillstånd sparas på disken. Om programmet sedan kraschar, kan systemet starta om jobbet från den sista kontrollpunkten.

NCSUDavid Fiala Problemet med kontrollpunkten, enligt Fiala, är att när antalet noder växer, är antalet systemkostnader behövs för att göra checkpointing växer också - och växer i en exponentiell takt. På en superdator på 100 000 nod, till exempel, kommer endast cirka 35 procent av verksamheten att vara inblandad i arbetet. Resten kommer att tas upp vid kontrollpunkten och om Fiala ska uppskattas av systemet, beräknas Fiala.

På grund av all ytterligare maskinvara som behövs för exascale-system, som kan byggas från en miljon eller flera komponenter, kommer systemets tillförlitlighet att ha Förbättras 100 gånger för att hålla sig till samma MTBF som dagens superdatorer tycker om, berättar Fiala.

Gamla bra råd: säkerhetskopiera data

Fiala presenterade teknik som han och andra forskare utvecklat som kan bidra till att förbättra tillförlitligheten. Tekniken tar itu med problemet med tyst data korruption, när system gör oönskade fel att skriva data till disk.

I grunden består forskarens inställning av att köra flera kopior, eller "kloner" i ett program samtidigt och sedan jämföra svaren. Programmet, som kallas RedMPI, körs i samband med Message Passing Interface (MPI), ett bibliotek för att dela upp program som körs över flera servrar, så att de olika delarna av programmet kan köras parallellt.

RedMPI avlyssnar och kopierar varje MPI meddelande som en ansökan skickar och skickar kopior av meddelandet till klonen (eller klonerna) i programmet. Om olika kloner beräknar olika svar kan numren räknas om på nytt, vilket sparar tid och resurser från att köra hela programmet igen.

"Implementering av redundans är inte dyrt. Det kan vara högt i antalet kärnantal som behövs, men det undviker behovet av omskrivningar med checkpoint omstartar, säger Fiala. "Alternativet är naturligtvis att helt enkelt återställa jobb tills du tror att du har rätt svar."

Fiala rekommenderade att köra två säkerhetskopior av varje program, för trippel redundans. Även om du kör flera kopior av ett program, skulle det i första hand ta upp mer resurser, med tiden kan det faktiskt bli effektivare, eftersom programmen inte behöver återställas för att kontrollera svaren. Det kan också hända att checkpunkter inte behövs när flera kopior körs, vilket också skulle spara på systemresurser.

UCSCEthan Miller

"Jag tror att tanken att göra redundans är en bra idé." För mycket stora beräkningar, som involverar hundratusentals noder, finns det verkligen en chans att fel kommer att krypa in ", säger Ethan Miller, en datavetenskap professor vid University of California Santa Cruz, som deltog i presentationen. Men han sa att tillvägagångssättet inte kan vara lämpligt med tanke på den mängd nätverkstrafik som sådan redundans kan skapa. Han föreslog att kör alla applikationer på samma uppsättning noder, vilket skulle kunna minimera internodtrafik.

I en annan presentation presenterade Ana Gainaru, en doktorand vid University of Illinois i Urbana-Champaign, en analys av logg filer för att förutsäga när systemfel skulle inträffa.

Arbetet kombinerar signalanalys med datautvinning. Signalanalys används för att karakterisera normalt beteende, så när ett fel uppstår kan det lätt upptäckas. Data mining söker korrelationer mellan separata rapporterade misslyckanden. Andra forskare har visat att flera misslyckanden ibland är korrelerade med varandra, eftersom ett misslyckande med en teknik kan påverka prestanda i andra, enligt Gainaru. När ett nätverkskort misslyckas kommer det snart att hysa andra systemprocesser som är beroende av nätverkskommunikation.

Forskarna fann att 70 procent av korrelerade misslyckanden ger ett fönstret möjlighet på mer än 10 sekunder. Med andra ord, när det första tecknet på ett fel har upptäckts kan systemet ha upp till 10 sekunder för att rädda sitt arbete eller flytta arbetet till en annan nod innan ett mer kritiskt fel uppstår. "Failure prediction kan slås samman med andra feltolerans tekniker", säger Gainaru.

Joab Jackson täcker företagsprogramvara och allmänt teknikbrytande nyheter för IDG News Service. Följ Joab på Twitter på @Joab_Jackson. Joabs e-postadress är [email protected]

Conficker slår hårdast i Asien, Latinamerika

Asien och Latinamerika har drabbats hårdast av Conficker-masken, säger säkerhetsexperter.

Om spam är lika med ton CO2 uppskattning av vårt digitala kolavtryck. Jag föreslår forskare gå vidare.

En McAfee-studie uppskattar 62 biljoner e-postmeddelanden för e-postmeddelanden som motsvarar 33 miljarder kilowattimmar el eller ungefär lika mycket kol som 3,1 miljoner bilar som förbrukar 2 miljarder gallons bensin. I januari hävdade en studie från Harvard University att två Google-sökningar producerade samma mängd koldioxid som att få vatten att koka på din stovetop.

Chrome först faller på Pwn2Own - faller under de första fem minuterna

Inom 5 minuter av Pwn2Own-tävlingen påbörjar Google att vara den mest säkra webbläsaren lades för att vila.

Häftigaste superdatorer faller hårdast, forskare föreslår

SVERIGES SNABBASTE SKRIVARE...

Innehållsförteckning:

Gamla bra råd: säkerhetskopiera data

Conficker slår hårdast i Asien, Latinamerika

Om spam är lika med ton CO2 uppskattning av vårt digitala kolavtryck. Jag föreslår forskare gå vidare.

Chrome först faller på Pwn2Own - faller under de första fem minuterna

Intressanta artiklar

Bästa programmeringsverktygen för att undervisa barn

3 bästa GUI-aktiverade USB Image Writer-verktyg på Linux

10 bästa användbara Gutenberg blockerar plugins för WordPress

3 fler VoIP- alternativ till Skype

Academix GNU/Linux

Verktyg för att komma åt Linux-filsystemet från Windows

Bästa programmeringsverktygen för att undervisa barn

3 bästa GUI-aktiverade USB Image Writer-verktyg på Linux

10 bästa användbara Gutenberg blockerar plugins för WordPress

Bästa programmeringsverktygen för att undervisa barn

3 bästa GUI-aktiverade USB Image Writer-verktyg på Linux

10 bästa användbara Gutenberg blockerar plugins för WordPress

Häftigaste superdatorer faller hårdast, forskare föreslår

SVERIGES SNABBASTE SKRIVARE...

Innehållsförteckning:

Gamla bra råd: säkerhetskopiera data

Rekommenderad

Intressanta artiklar