Big Data

Start / Rozwiazania_opis / Big Data

Rozwiązania klasy Big Data pozwalają w naturalny sposób poszerzyć możliwości analizy danych. Użycie tego rodzaju technologii pozwala sięgnąć po dane które dotychczas były zbyt skomplikowane lub zbyt kosztowne do składowania i analizy.

Rozwiązania te w naturalny sposób uzupełniają tradycyjne środowiska analityczne. Dają niespotykane dotychczas możliwości skalowalności lub prędkości odpowiedzi. Jednocześnie zapewniają opłacalność przetwarzania pewnych rodzajów danych, których dotychczas ze względu na wolumen nie analizowano w ogóle lub też w wąskim zakresie.

big data cube algo1


 

Korzyści

 Korzyści płynące ze wzbogacenia środowiska o nowe silniki analityczne:

  • Celniejsze rekomendacje produktów

  • Bardzo dokładna (mikro)segmentacja

  • Klasyfikacja klienta i jego transakcji do segmentu w czasie rzeczywistym

  • Częściej odświeżane i dokładniejsze prognozy

  • Agregowanie i analizowanie strumieni danych w czasie rzeczywistym

  • Rozszerzenie profilu behawioralnego klientów o nowe cechy 

 

 




Kiedy używać narzędzi Big Data

 

Rekomendujemy wykorzystanie tego rodzaju narzędzi wszędzie tam gdzie:

  • Wolumen danych jest zbyt wielki

  • Czas trwania analizy jest za długi

  • Koszt analizowania danych jest zbyt duży

  • Struktura danych jest zbyt złożona lub brak jest struktury

  • Potrzebne jest centralne repozytorium informacji

 

Narzędzia ekosystemu Hadoop pozwalają na stworzenie centralnego repozytorium danych, będącego "hubem" przeładunkowym informacji  w przedsiębiorstwie. Koncepcja takiego repozytorium znana jest szerzej pod hasłem "jeziora danych" (z ang. data lake ). Jest to kolejny etap ewolucji cyfrowej przedsiębiorstw. Umożliwia analitykom i programistom dostęp do wszystkich posiadanych przez organizację informacji niezależnie.  Daje możliwość tworzenia zupełnie nowych produktów opartych o dane. Pozwala w nieskrępowany sposób analizować informacje zapominając o długotrwałych procesach dostosowania systemów hurtowni danych lub systemów MIS.

 

Praktyczne zastosowanie

Wraz z pojawieniem się tej gałęzi oprogramowania pojawiła się możliwość, aby w możliwie dokładny i opłacalny sposób analizować np:

  • logi z odwiedzania stron www i aplikacyjne

  • odczyty inteligentnych liczników

  • logi z urządzeń sieciowych




  • transakcje paragonowe

  • dane archiwalne

 

 

 

"To rachunek ekonomiczny decyduje o popularności narzędzi Big Data, albowiem problemów tej skali wcześniej nie opłacało się rozwiązywać"

 

 

 

Co to za narzędzia

Hadoop

Rozwiązanie zdolne pomieścić i przetworzyć dowolną ilość danych oparte na komponentach open-source.

Jest to zbiór narzędzi, pozwalających skutecznie przetwarzać w trybie wsadowym naprawdę duże zbory danych. Może pełnić rolę centralnego repozytorium danych w przedsiębiorstwie ("data hub"). Architektura tego rozwiązania zakłada skalowalność sięgającą setek petabajtów i tysięcy serwerów. Z racji ilości modułów, które mogą wchodzić w jego skład użytkownicy niemal zawsze sięgają po gotowe dystrybucje. Nasza preferowana dystrybucja IBM BigInsights for Hadoop ma następujące funkcjonalności

  • Pozwala na aktualizację danych w czasie rzeczywistym (moduł Hbase).

  • Posiada interfejs SQL i R ( moduły BigSQL i Big R)

  • Wspiera przetwarzanie strumieniowe i składowanie danych w pamięci  - (moduł Spark)

  • Wspiera obliczenia narzędzi analitycznych (SPSS i Tableau)







slonik






Strumienie

Rozwiązanie na bieżąco przetwarza w pamięci napływające dane z opóźnieniem milisekundowym

Narzędzia do przetwarzania strumieni danych czyli nieustających potoków danych. Ich podstawową funkcją jest filtrowanie i odsiewanie ze strumienia informacji istotnych z punktu widzenia biznesowego. Największą wartości jest jednak to że pozwalają na bieżąco ( z opóźnieniem mikro/milisekund )

  • przeprowadzać kalkulacje na płynących danych

  • korelować zdarzenia z innymi danymi 

  • wzbogacać dane o informacje zewnętrzne

  • wykrywać zajście złożonych warunków biznesowych






infosphereStreams






Analityczna baza danych MPP

Rozwiązanie do natychmiastowego raportowania na dużych wolumenach

Dedykowana baza danych opracowana z myślą o pracy o charakterystyce analitycznej.  Specjalizowany silnik bazodanowy, używający języka SQL bardzo szybkie wykonywanie kwerend o profilu analitycznym. Architektura MPP (Massively Parallel Processing) podobnie jak w Hadoop zapewnia rozproszone przetwarzanie kwerend na dziesiątkach procesorów jednocześnie. Skalowalność takich baz danych sięga petabajtów. Unikalną ich właściwością jest liniowy wzrost wydajności wraz z pojemnością. Z łatwością obsłużą środowiska od 500GB do 250TB i więcej. W zastosowaniach analitycznych są 10-100x szybsze od uniwersalnych baz danych.

  • Może być ziintegrowana ze sprzętem jako appliance

  • Nie wymaga strojenia lub posiada automatyczne strojenie

  • Jest zawsze wysoko dostępna

  • Integruje się ściśle ze środowiskiem HadoopStrumieniami




 

 

 

 

"Jesteśmy teraz w stanie uzyskać analizy, których wykonanie wcześniej było niemożliwe"

 

 

 

Skuteczne przykłady wykorzystania 

 

Firma handlowa X posiadająca dużą sieć sklepów potrzebowała przeprowadzać analizę rentowności sprzedawanych towarów. Mając kilkaset tysięcy rodzajów konfekcjonowania produktów oraz wiele miliardów linii paragonowych firma X nie była w stanie wykonać tego rodzaju analizy na standardowym silniku bazodanowym. Uzyskiwane wyniki obarczone były dużym błędem gdyż obliczenia można było przeprowadzać tylko na zaagregowanych danych. Dane na temat pojedynczych transakcji ze względu na ich dużą liczbę były dostępne tylko dla ostatnich 3 miesięcy i wymagały starannego strojenia.

Używając technologii PureData for Analytics analityk firmy X był w stanie przygotować i wyliczyć taką analizę w przeciągu kilku minut korzystając z ponad 24 miesięcy danych detalicznych. Same obliczenia nie trwały dłużej niż minutę pozwalając analitykowi na wielokrotne poprawianie analizy i eksperymentowanie z danymi.



shopping_algo









Algo_Bank

Bank Y posiada wielomilionową bazę klientów. W związku z tym zbiory danych towarzyszące zapisom księgowym generują dziesiątki gigabajtów danych dziennie. Zapotrzebowanie na analizę danych historycznych chociaż niższe jednak wymagało aby dane te były dostępne w długim horyzoncie czasowym. Bardzo kosztowne było trzymanie tak dużych i tak starych danych w szybkiej bazie danych. Klient potrzebował zwolnić to miejsce dla danych aktualnych zachowują możliwość raportowania z nich w obecnych narzędziach raportowych.

Rozwiązaniem było zbudowanie środowiska Hadoop zintegrowanego z posiadaną przez nich szybką bazą danych. Środowisko Hadoop stało się odpytywalnym archiwum danych do którego przesyłane są wszystkie starzejące się informacje. Jest dużo efektywniejsze kosztowo niż tradycyjna baza danych. Kompromisem było poświęcenie wydajności w dostępie do najstarszych danych. Nie zmienia to jednak nic w sposobie w jaki użytkownicy raportów korzystają z danych. Obecnie główna "szybka" baza danych posiada tylko najświeższe i najczęściej używane dane.







Firma energetyczna Z wprowadzała u swoich użytkowników zamiast tradycyjnych liczników z odczytywanych raz w miesiącu tzw. liczniki inteligentne dające automatyczne odczyty co 15 minut. Ogromna ilość danych generowana przez te urządzenia powodowała trudności w składowaniu takiej ilości informacji. Dostęp do nich był utrudniony i wymagał dużych inwestycji w infrastrukturę. Same procesy czyszczenia danych, uzupełniania braków i poprawiania błędnych odczytów były bardzo długotrwałe i przeprowadzane był conajwyżej raz dziennie. Wraz ze wzrostem ilości liczników możliwości tradycyjnej technologii bazodanowej wyczerpywały się. 

Użycie technologii SPSS i PureData umożliwiło na skuteczne wdrożenie inteligentnych liczników dla wieluset tysięcy punktów odbioru energii. Dramatyczne skrócenie procesów naliczania i czyszczenia tych danych, pozwoliło uruchomić ten proces w trybie ciągłym.  Dzięki sprzęgnięciu technologii SPSS i PDA możliwe jest naliczanie dokładnych prognoz na poziomie pojedynczego punktu odbioru prądu dając duże oszczędności w procesie produkcji i kupowania energii. Dane dostepne są dla analityków w ciągu dnia z niedużym opóźnieniem dając możliwość częstej aktualizacji prognoz. 




algolicznik






Jeśli chcą się Państwo dowiedzieć więcej lub zobaczyć nasze rozwiązania, prosimy o kontakt.


Kontakt