Windows

Facebooks stora dataplaner inkluderar lager, snabbare analyser

Tutorial: Facebook Insights

Tutorial: Facebook Insights
Anonim

Facebook kan värdera de uppgifter som den har på sina en miljard plus-användare för dess annonsering, men den analys som webbplatsen utför på dessa data förväntas fortsätta att utgöra en rad utmaningar under det kommande året, sade en ingenjör. Problemen, som Facebook har tvingats att gripa med "mycket tidigare än den bredare industrin" ut mer effektiva sätt att bearbeta användarbeteende på webbplatsen, hur man bättre får tillgång till och konsolidera olika typer av data över Facebooks flera datacentraler och utformar nya open source-programvarusystem för att bearbeta den data, Ra vi Murthy, som hanterar Facebook: s analysinfrastruktur, sa tisdag. "

" "Facebook är ett datavirksomhet, och det mest uppenbara som människor tycker om på den fronten är annonser riktade mot", sa han vid en industrikonferens i San Francisco under en prata om Facebooks back-end-infrastruktur, dataanalys och öppna källprojekt.

[Vidare läsning: De bästa TV-streamingtjänsterna]

"Men det går djupare än det här", sa han.

Ett stort område av Arbetet bakom kulisserna avser Facebook: s analysinfrastruktur, som är utformad för att påskynda produktutveckling och förbättra användarupplevelsen genom en djup analys av all tillgänglig data, oavsett om det består av de åtgärder som användarna tar på webbplatsen som statusuppdateringar eller som applikationer som de använder inom Facebook på olika enheter.

Facebook använder idag flera olika open source-mjukvarusystem, som kallas Hadoop, Corona och Prism, för att bearbeta och analysera data som företaget kommer att fokusera på att göra Snabbare och effektivare under de närmaste sex till tolv månaderna, säger Murthy.

Många av företagets utmaningar är knutna till vad Facebook hänvisar till som sitt datalager, som kombinerar data från flera källor till en databas där användaraktivitet kan analyseras Sammanlagt, t.ex. genom att ge en daglig rapport om antalet foton som har taggats i ett visst land, eller om hur många användare i ett visst område har engagerade sig på sidor som rekommenderades till dem.

Analysen är utformad för att optimera användarupplevelserna och ta reda på vad användarna tycker om och gillar, men det blir också mer beskattande eftersom Facebook kan få tillgång till mer och mer data om sina användare, säger Murthy. För närvarande tar Facebook-lageret 500 bäddar av nya data varje dag, eller 500 000 gigabyte. Lageret har ökat nästan 4000 gånger i storlek under de senaste fyra åren, "långt före Facebooks användarutveckling", säger Murthy.

För att hantera dessa problem har Facebook utvecklat sitt Prism-mjukvarusystem som är utformat för att utföra viktiga analysfunktioner över företagets datacenter över hela världen och dela upp analyserna i "bitar", säger Murthy. På så sätt kommer det inte att täppa till en analys av, till exempel, några metriska relaterade till användarnas nyhetsflöden. Mer än en gång kommer det att lagras i lageret. "

" "Vi tänker alltmer på hur man ska fånga dessa data," sa han. > Företaget arbetar också med ett system som tar ett helt annat tillvägagångssätt för att fråga om lagret för att ge en svarstid inom några sekunder, säger Murthy.

Ett annat område Facebook tittar kontinuerligt på att förbättra är dess "transaktionsinfrastruktur, "Som hanterar den mer grundläggande, dagliga databehandlingen av, säger, gillar, kommentarer och statusuppdateringar för att hålla det sociala nätverket löpande. Några av de frågor som företagets ingenjörer och analytiker tittar på inkluderar att räkna ut hur man prognostiserar den faktiska tillväxten i denna typ av data, och hur mycket databehandling Facebook verkligen skulle tilldela det, sa Murthy.

"Kan vi förutse vad det kommer att bli sex månader från nu?" Sa han.

Samtidigt är Facebook också involverad i en långsiktig insats för att göra sina fysiska servrar mer effektiva. Företaget inledde sitt Open Compute Project 2011, med målet att designa modulariserade servrar som ger kunderna större kontroll över nätverk, minne, strömförsörjning och andra komponenter som går in i sina servrar. Det utvidgades för att införliva ARM-processorer i januari.