Čo je to big data?

Tí, čo sledujú dianie v informačných technológiách (a možno aj ďalší), sa čoraz častejšie stretávajú s pojmom big data, alebo, v slovenčine veľké dáta, či v češtine veledata.
Medzi informatikmi sa niekedy hovorí, že big data sú ako Yeti. Každý o nich hovorí, ale nikto ich ešte nevidel.
Veľké dáta sú k nám však bližšie ako sa nám zdá. Najznámejšou aplikáciou spracúvajúcou veľké dáta je vyhľadávač Google (ale tiež Bing a Yahoo! a ďalšie). Ďalšími notoricky známymi spoločnosťami, kde big data hrajú kľúčovú úlohu sú Facebook, Amazon, eBay, Tesco a mnohé ďalšie.
Čo to teda tie “veľké dáta” sú? Najlepšie bude ak sa pozrieme na to ako sa táto oblasť vyvíjala..

Jedným z hlavných priekopníkov v odvetví veľkých dát je Google. V začiatkoch Google, bola celá databáza webu uložená na desiatich štvorgigových diskoch (dokopy teda 40 GB, čo je asi desatina kapacity bežných, dnes predávaných, diskov do PC). Web sa však začal prudko rozrastať a vyhľadávanie začalo narážať na technické limity vtedajších databáz. Bolo potrebné vymyslieť úplne novú technológiu, ktorá by umožnila rýchle a za prijateľnú cenu spracovať takéto dátové objemy. V roku 2004 google publikoval vedeckú prácu, pogramátorskej metóde nazvanej MapReduce a v roku 2006 o spôsobe ukladania veľkých dát nazvanom BigTable.
Základnou vlastnosťou týchto dvoch inovácií bolo, že umožňovali masívne paralelné spracovanie údajov. To znamená, že údaje sa rozdelia medzi medzi množstvo počítačov (tisíce až desaťtisíce) a každý počítač spracuje len malú časť údajov a výsledky sa potom zosumarizujú. Toto je to tajomstvo, vďaka ktorému Google dokáže naraz obslúžiť taký veľký počet užívateľov, pričom zakaždým musí zároveň expresne spracovať obrovský objem dát.
Samozrejme big data, to nie je dnes len Google. Okrem vyhľadávania na internete a spracovania údajov zo sociálnych sietí existuje množstvo rôznych ďalších aplikácií spracovania veľkých dát. Napríklad marketingové aplikácie na segementáciu zákazníkov, analýzu zákazníckeho správania a cielenú reklamu, ktoré kombinujú dáta z predaja a zákazníckych databáz alebo aplikácie na optimalizáciu business procesov, ktoré kombinujú dáta z rôznych zariadení, snímanie RFID čipov, počítačových logov a ďalšie.
Veľké dáta sú charakterizované takzvanými tromi V: Volume, Velocity, Variety. Sú to anglické výrazy, ktoré znamenajú objem, rýchlosť a rôznorodosť.
Volume – objem: veľké dáta logicky znamenajú veľký objem. To je ich hlavná charakteristika, ktorú sme už spomínali vyššie. Dnes sa špeciálne technológie pre veľké dáta používajú na dáta rádovo stoviek terabajtov až petabajty (terabjat = 1 000 GB, petabajt = 1 000 TB).
Velocity – rýchlosť: big data technológie umožňujú v reálnom čase spracovávať dáta ktoré pribúdajú veľkou rýchlosťou. Dáta učené pre analýzu spracúvané klasickým spôsbom v takzvaných dátových skladoch (data warehouse) je potrebné najprv transformovať a až potom sa môžu pridať do analytických databáz. Veľké dáta môžu vstupovať do analytických procesov v “surovom” stave v reálnom čase tak ako prichádzajú.
Variety – rôznorodosť: veľké dáta sú typické veľkou rôznorodosťou. Už to nie sú len klasické tabuľkové dáta na aké sme boli zvyknutí z klasických (relačných) databáz ale aj rôzne dokumenty, ktoré majú voľnejšiu štruktúru, ako napríklad web stránky, statusy sociálnych sietí, prepojenia v sociálnych sieťach, logovacie súbory z rôznych zariadení či dokonca obrázky alebo rôzne audio a video súbory.
Ak to máme zhrnúť, big data sú teda dáta ktoré je potrebné spracovávať paralelne na tisíckach počítačov, to znamená že zvyčajne sú to aspoň stovky terabajtov, ktoré mnohokrát pribúdajú do systému veľmi rýchlo a sú veľmi rôznorodé.
Ak sa chcete o ich spracovaní dozvedieť viac pozrite si môj špecializovaný blog na http://aadaptive.biz/freelancer/
Ďalšia aplikácia je napr. na stránke http://smartketing.sk/5-sposobov-ako-zvysit-predaj-a-usetrit-na-marketingu/