Interview med Kim Gregers Petersen, Big data & Analytics - IBM, ATEA.

Big Data: Udfordringer og muligheder

Interview med Kim Gregers Petersen, Big Data & Analytics ekspert

Big Data er kommet på alles læber som en række teknologier, der kan forandre brugen af data verden over og i næsten alle typer af virksomheder. Udfordringer kalder nogen det. Muligheder kalder dansk ekspert det.

For nylig var der et jobopslag i SKAT. I jobopslaget stod der, at man søgte en underdirektør til at stå i spidsen for en helt ny afdeling for “Business Intelligence og Analyse”. Den nye afdeling skulle bl.a. bidrage til en generel effektivisering af SKAT samt videreudvikle datamodeller, “hvor anvendelsen af Big Data vil være en naturlig del af aktiviteterne,” som det hed.

“Jeg læste jobopslaget som et tegn på, at ikke bare private virksomheder, men også det offentlige er begyndt at arbejde seriøst med Big Data,” siger Kim Gregers Petersen, Big Data & Analytics-ekspert. Som rådgiver på Big Data-løsninger kan han mærke interessen stige nærmest dag for dag, fordi virksomheder og organisationer som SKAT hele tiden øjner nye muligheder for at analysere på deres voksende bunker af data. “Det er et område i meget eksplosiv vækst, og det gælder om at stige på toget lige nu,” siger Kim Gregers Petersen.

Indledningsvis og som afsæt for en diskussion af Big Data opsummerer Kim Gregers Petersen udviklingen på området gennem de sidste 10 år med fire fakta:
Faktum 1. Verdens datamængder er steget i et tempo, som langt overgår, hvad vi er i stand til at forestille os.

Faktum 2. Det er ikke kun et spørgsmål om volumen, når vi henviser til verdens stigende datamængder som en udfordring. Det handler også om, at data kommer fra nye kilder såsom video, foto, audio, navigationssystemer og sociale medier.
Faktum 3. De nye typer af data er oftest ustrukturerede og kræver derfor helt andre teknologier til håndtering, end vi har været vant til.

Faktum 4. Disse nye teknologier er stadig så nye, at det har efterladt mange i branchen midt i en brydningstid. For på den ene side ved de fleste, at det er rækken af disse nye teknologer, der kommer til at forme deres professionelle fremtid, men på den anden side har mange også erkendt, at de ikke ved nok om teknologierne, fordi mange af dem er så nye, at det praktisk taget har været umuligt at følge med og dygtiggøre sig inden for området.

“Lidt groft skitseret er det virkeligheden, som den ser ud lige nu,” siger Kim Gregers Petersen. “Spørgsmålet er selvfølgelig: Hvad skal man stille op?”

Voldsomt interessant for forretningen

Svaret på det spørgsmål vender vi tilbage til. Først forklarer Kim Gregers Petersen, hvad han definerer som Big Data.

“Hvis vi tager et tænkt eksempel, så har en virksomhed data svarende til 100%. Hvis man spørger langt de fleste virksomheder, hvor mange af disse data, de bruger i deres daglige forretning, vil de svare 15-20%. De resterende 80-85% af data bruger de af forskellige årsager ikke til noget. De opbevarer dem bare, fordi de skal, eller fordi de ikke ved, hvordan de skal bruge dem. Den store forkromede pointe med Big Data er at gøre så mange af de 80-85% inaktive data aktive, så de kan bidrage til forretningen,” siger Kim Gregers Petersen og kommer med et eksempel:

“Lad os tage en virksomhed, der sælger computere. I salgsafdelingen har de i dag godt styr på, hvilke computere de sælger til hvilke kundetyper, hvad de tjener på de forskellige computere, hvordan prisudviklingen inden for de forskellige produktkategorier har været osv. I marketingafdelingen har de godt styr på kontakten til nye og eksisterende kunder med tilbud om kampagner, seminarer osv. Og i kundeservice har de godt styr på at hjælpe sure kunder, der ringer ind og brokker sig over et bestemt produkt. Pointen er, at data fra de forskellige afdelinger aldrig mødes. Det kunne jo være, at det var interessant for marketing og salg at vide, at kundeservice havde håndteret 78 klager over den samme computer inden for en uge. Den information går tabt i dag, fordi man ikke har systemerne til at samordne de data.”

Big Data skriger på arbejdskraft

Det er først og fremmest virksomhederne, der har grund til bekymring over de mange nye muligheder og teknologier, fordi de ikke har folk ansat med de rigtige kompetencer.

“Området skriger på arbejdskraft,” siger Kim Gregers Petersen. “Hvis jeg var 20 år, ville jeg skynde mig at løbe i den retning. I mange år har det ikke rigtigt været populært at være programmør. Bl.a. fordi fx ERP-løsninger og Exchange-løsninger har fået et elegant administrationslag, som gør det relativt nemt for almindelige IT-folk at håndtere. Det blev med andre ord lidt kedeligt “bare” at være programmør. Men med alle de nye Big Data-teknologier – hvoraf de fleste kommer fra open source-miljøet – er det pludselig blevet sejt at være programmør igen. Vi ser ikke de superlækre grænseflader i de nye produkter, som man kender det fra modne teknologier. Big Data er lidt mere hardcore.”

Som Kim Gregers Petersen fortæller, kan det endnu ikke lade sig gøre at gå den formelle vej, hvis man gerne vil uddanne sig inden for Big Data-feltet. Der udbydes simpelthen ikke undervisning på landets uddannelsesinstitutioner. “Det er faktisk den største showstopper for udbredelsen af Big Data lige nu,” siger Kim Gregers Petersen. “men det hænger formentlig sammen med, at teknologierne er så nye, at uddannelsessystemet ikke har været i stand til at følge med.”

Big Data-miljøet

Med en generisk model over et Big Data-miljø foran sig gennemgår Kim Gregers Petersen dataenes lange vandring, fra de første gang banker på virksomhedens dør enten som strukturerede data eller som ustrukturerede i form af eksempelvis Twitter-, video- eller teledata, til de ultimativt dukker op som eksempelvis BI-rapporter i den anden ende. Undervejs i gennemgangen dukker navnet Hadoop op. Hadoop er ifølge Wikipedias definition “et open-source software framework til storage og large-scale processering af data i store clusters, som kører på commodity hardware.” Kim Gregers Petersen beskriver Hadoop som en helt central komponent i af mange af de største Big Data-miljøer i verden.

“Det fantastiske ved Hadoop er, at det fungerer som et uendeligt antal af spande, man kan hælde både strukturerede og ustrukturerede data ned i. Nogle data vil man gerne analysere på med det samme. Andre data vil man måske gerne analysere på om tre år, når det giver bedre mening. Begge disse krav og mange flere er Hadoop skabt til at kunne imødegå,” siger Kim Gregers Petersen.

“ Jeg kan kun anbefale, at man kigger nærmere på Hadoop og den række af teknologier, der ligger i Hadoop-økosystemet. Det baserer jeg bl.a. på, at vi aldrig før har set så store kommercielle virksomheder have så stor en økonomisk interesse i et open source-miljø. Hadoop udgør eksempelvis rygraden i IT-systemerne hos Yahoo, Twitter, Netflix og Facebook, og de vil gøre alt for, at Hadoop bliver ved med at blive bedre og bedre.”

Han kan næsten ikke få casen over sine læber, fordi den er så gennemtærsket i medierne, men Kim Gregers Petersen nævner i en bisætning Vestas’ store Hadoop-installation, og hvordan de er i stand til at lave næsten realtidssimuleringer for placeringen af nye vindmøller, når han skal demonstrere potentialet i Big Data og subsidiært Hadoop. I et andet og mindre kendt eksempel har KTH – Stockholms svar på DTU – benyttet sig af IBMs streaming-teknologi STREAMS til trafikovervågning i Stockholm. En række forskellige datakilder såsom bilernes GPS-signaler, alarmmeldinger fra trafikstyrelsen, sensorer på vejene og vejrdata hjælper med at dirigere trafikken, så den glider så let som muligt.

Logikken er vel, at uanset branche vil enhver virksomhed af en vis størrelse kunne få gavn af Big Data?
“Præcis. Men det kræver, at man kan tænke kreativt, og at man kender teknologierne,” afslutter Kim Gregers Petersen.

Hvordan kommer du i gang med Big Data

Big Data er mange forskellige ting, og der er
næppe to kunder, som har identiske problem-stillinger. Nedenstående er dog en udmærket køreplan for at komme i gang.

  1. Sørg for at kigge på Big Data som en fælles vision og opgave, hvor forretningsdelen og IT arbejder sammen
  2. Kig på dine nuværende data og vurder, hvordan du trækker mere værdi ud af dem. Brug et værktøj som fx IBM Watson Explorer til formålet
  3. Har du performanceproblemer med dine SQL-databaser, og vil det give mening at flytte data over i en skalérbar NoSQL-database?
  4. Anvender du i forvejen BI, og kan du med et Big Data miljø stille flere data til rådighed for BI-værktøjerne?
  5. Har du allerede nu ”data scientist” profiler ansat? Har du nuværende medarbejdere, der interesserer sig for området og kan ”opgraderes”?
  6. Vælg værktøjer og Hadoop, som er pakket fornuftigt ind af fx IBM, så du kan komme hurtigere i gang og vise/få resultater
  7. Identificér konsulenter (fx hos ProData Consult), som både kan rådgive på forretningssiden og assistere ved implementering og programmering