Car-tech

Cloudera Preps Hadoop för Enterprise

Get Started with Hadoop Using Cloudera Enterprise | Part 2

Get Started with Hadoop Using Cloudera Enterprise | Part 2
Anonim

Cloudera har presenterat en ny uppsättning Hadoop-hanteringsverktyg, kallad Cloudera Enterprise, som företaget kommer att erbjuda för en årlig teckningsavgift, meddelade den på tisdag. Det har också uppdaterat sitt Open Source-distributionspaket av Hadoop.

Både nya versioner, liksom flera nya partnerskap med leverantörer av leverantörer av datahanteringsprogram, visar att företaget erbjuder den framväxande databasstekniken - nu mestadels används av webjättar som Google och Yahoo - till företagsmarknaden som ett alternativ till relationsdatabaser.

"Vår satsning är inte bara de stora webbbolagen, men banker, sjukhus och försäkringsbolag kommer att upptäcka att de behöver analysera komplexa och strukturerade data tillsammans, och Hadoop gjordes för det, säger Cloudera VD Mike Olson. "Hadoop löser ett nytt problem på ett nytt sätt."

Ett av ett växande antal icke-SQL- eller NoSQL-databaser, Hadoop, är baserat på Google MapReduce, en ram för att bearbeta data parallellt över ett stort antal datorer noder. Hadoop, som nu utvecklas som ett open source-projekt av Apache Software Foundation, erbjuder ett alternativ till traditionella relationsdatabaser, för minst de fall som analyserar stora, snabbt växlande dataset.

Det kan fungera med både SQL och icke -SQL-data, och är mer motståndskraftig mot serverfel än relationsdatabaser, sade Olson.

Cloudera är förpackning Hadoop för midlevel-organisationer, både med Hadoop-distributionen och dess nyligen släppta uppsättning hanteringsverktyg. Båda paketen bör tillåta organisationer utan mycket djup teknisk erfarenhet i Hadoop att köra mjukvaran, sade Olson. "Det finns den här myten som Hadoop är användbar om du har Google-skalade data. Det finns många användare som bara har några terabyte data som de vill analysera," sade Olson.

Clouderas distribution för Hadoop (CDH) är ett öppen källkodspaket av förintegrerade program som byggdes runt Hadoop Common, tidigare heter Hadoop Core. Paketet innehåller: Hive, som tillhandahåller en datalagringsinfrastruktur; HBase, databasen bakom Hadoop; Gris, en kompilator för map-reducera program; Zookeper, en schemaläggning för att köra applikationer över flera servrar och MapReduce.

I den nyligen släppta versionen 3 innehåller paketet tre program som företaget har släppt som open source-projekt, under Apache V2 open source-licensen. En är Flume, som kan hjälpa till med att ladda data i Hadoop. Ett annat nytt tillägg är Oozie, vilket är ett arbetsflödeshanteringsprogram. Det sistnämnda är Hadoop User Environment (HUE) -koden, som ger ett användargränssnitt för hantering av Hadoop.

"HUE tillåter vem som helst att bygga en applikation som riktar sig till analytiker. Den vet hur man ska prata med Hadoop-klustren," sade Olson.

Paketet Cloudera Enterprise kompletterar CDH version 3 med ytterligare hanteringsverktyg. Den här nya programvaran, som inte är öppen källkod, tillåter administratörer att kontrollera åtkomsthantering med hjälp av protokollet Lightweight Directory Access. Olson skulle inte diskutera hur mycket Cloudera har gjort från abonnemangs- och konsultavgifter hittills men noterar att det första kvartalet 2010 gjorde företaget så mycket som vad det tjänat till under halvåret 2009. Bland olika branscher, finansiella tjänster, telekommunikation, detaljhandel, regering och webbhandel har företagen visat intresse för tekniken, säger Olson. "De saker som företagen gör med Hadoop varierar. generellt är dessa människor fånga mycket data från många ställen och behöver utsätta den för sofistikerade analyser, säger Olson. "Finansiella tjänster är intresserade av att använda Hadoop för att upptäcka bedrägerier. I telekommunikation finns det ett verkligt behov av att optimera nätverk och minska kundernas churn."

Förutom att erbjuda dessa paket, har Cloudera stött på stöd för Hadoop från leverantörer av affärsunderrättelse (BI) och datahanteringsprogram.

Olson planerar att under sin huvudnyckel på Hadoop-toppmötet 2010 meddela sig i Santa Clara, Kalifornien på tisdag, kommer BI-leverantören MicroStrategy att stödja Hadoop-användningen.

En annan ny partner är Talend, en leverantör av data för datakonfiguration med öppen källkod. Företaget har utökat sin Talend Integration Suite till gränssnitt med Hadoop databaser. Med sin svit kan administratörer hantera och samla flera datakällor från en enda konsol. Med Hadoop kan programvaran "nativt infoga eller hämta data och bearbeta uppgifterna inom Hadoop-arkitekturen", säger tales vice vd för marknadsföring, Yves de Montcheuil.

Mikrostrategi och Talend ingår i ett växande antal företag prepping open source eller kommersiella hanteringsverktyg för Hadoop. Förra veckan inledde Cloudera och Quest ett projekt för att bygga programvara som kan koppla Hadoop med Oracle-databaser. I maj offentliggjorde affärsunderrättelseföretaget Pentaho att den skulle fungera med Hadoop-databaser.

I en separat intervju med IDG News Service påpekade Yahoo CTO Raymie Stata att Hadoop kunde minska behovet av att bygga superdatorer att analysera stora dataset. Traditionellt har stora dataset flyttats från lagring till superdatorn, som är en sammansatt serie servrar, som ska analyseras. I motsats härtill flyttar Hadoop den analytiska beräkningen till var uppgifterna finns, vilket eliminerar behovet av en cental gigantisk nummerbrunchmaskin. Yahoo var en tidig ledande bidragsgivare till Hadoop.

Utöver Clouderas erbjudande marknadsförs Hadoop också av IBM, som nyligen började erbjuda en uppsättning analytiska tjänster som använder tekniken.

Joab Jackson täcker enterpysprogramvara och generell teknik som bryter nyheter för

IDG News Service

. Följ Joab på Twitter på @Joab_Jackson. Joabs e-postadress är [email protected]