Niezrównana wydajność w świecie Big Data

Vertica to rdzeń środowiska analizy danych. Bez ograniczeń, bez kompromisów.

 

 

 

 
 

Wypróbuj Vertica na swoich danych.

 

   Pobierz darmową wersję   

 
 
Czy wiesz że możesz legalnie za darmo wykorzystywać Vertica w instalacjach do 1 TB danych?

 

Vertica

Stworzona przez naukowców 4 amerykańskich uniwersytetów (w tym MIT). Funkcjonujące najpierw pod nazwą C-store (column store), a następnie przekształcone w rozwiązanie komercyjne o nazwie Vertica.

Cele

  Bezkonkurencyjna wydajność

  Otwartość na inne narzędzia

  

  

  Nieograniczone możliwości rozbudowy

  Oszczędność przestrzeni dyskowej

  

  

 

Prędkość

Głównym wyróżnikiem Vertica jest szybkość pracy. Wszystkie jej cechy architektoniczne są pochodną wymagania, aby Vertica przetwarzała dane jak najszybciej.

Kompresja

Nadzwyczajna kompresja kolumnowa powoduje, że przeczytanie danych z twardego dysku odbywa się nawet 40x szybciej. Tak samo późniejsze przetwarzanie nie wymaga takiej ilość pamięci RAM, gdyż baza pracuje na wartościach skompresowanych.

 

Kolumnowe składowanie

Dane trzymane są w przekrojach kolumnowych. Dzięki temu analizując tabelę mającą tysiące kolumn, Vertica czyta tylko te kolumny, które potrzebne są w tej analizie.

Projekcje

Składowanie danych w postaci różnych projekcji powoduje, że Vertica przekierowuje żądanie do projekcji najwydajniejszej dla danego zapytania. Ponadto, Vertica automatycznie segmentuje dane pomiędzy dostępne serwery, dzięki czemu wszystkie są równomiercie obciążone.



 

 

Rozbudowa

Sekretem skalowalności Vertica jest architektura MPP (massively paralel processing). Praca nad obliczeniami dzielona jest sprawiedliwie pomiędzy dostępne serwery, dzięki czemu wszystkie jednocześnie pracują nad wykonaniem zapytania. To oznacza, że można w łatwy sposób podnosić wydajność przez dołączanie kolejnych maszyn. Zupełnie normalną sytuacją są instalacje Vertica składające się z kilkudziesięciu lub kilkuset maszyn (fizycznych lub wirtualnych) pracujących jednocześnie.

Rozbudowa o nowe serwery to akcja trwająca kilkadziesiąt minut i pozwala podnieść wydajność bazy danych nie powodując niedostępności(!).

 

 

Otwarta architektura

Vertica używa standardowego dialektu SQL, a dane prezentowane i składowane są w tabelach. Pod tym względem praca z Vertica nie różni się od pracy z innymi bazami danych. Współpracuje ona z wszystkimi powszechnie używanymi narzędziami Business Intelligence oraz ETL. Dzięki temu można do Vertica ładować dane z dowolnego źródła i odpytywać z użyciem dowolnych narzędzi analityczno-raportowych.

Użytkownicy narzędzi open source również docenią to jak Vertica wspiera te środowiska.

 

Użytkownicy języków R i Python docenią możliwości tworzenia funkcji w tych językach wykonywanych w skali miliardów rekordów wewnątrz Vertica. Możliwe jest przeprowadzanie transformacji lub zaawansowane obliczenia z wykorzystaniem bibliotek zewnętrznych tych języków.

 

Integracja z Hadoop pozwala również na odczyt plików trzymanych na HDFS, jak i tabel zdefiniowanych w HCatalog i przetwarzanie ich w silniku Vertica.




Dzięki bezpośredniemu ładowaniu komunikatów z Kafka, Vertica umożliwia raportowanie w czasie rzeczywistym niezależnie od wielkości strumienia. Są klienci którzy swoje instalacje Vertica ładują strumieniami danych przekraczającymi 30TB/h. Domyślnie Vertica obsłuży dane przychodzące z Kafka w formatach Avro, JSON, ale jednocześnie pozwala na tworzenie swoich dowolnie złożonych parserów danych.

Dzięki hybrydowemu składowaniu danych (in-memory / on-disk ) możliwe jest jednoczesne ładowanie i analizowanie danych w trybie „near real-time”.


 

 

Oszczędność przestrzeni dyskowej

Kolumnowe składowanie zapewnia możliwość wykorzystania efektywniejszych metod kompresji. Vertica posiada wyższe współczynniki kompresji w porównaniu do standardowych baz danych. Dostępność kilkunastu metod kodowania danych zapewnia możliwość wyboru do charakterystyki danych.

 

Vertica pozwala dobrać różne rodzaje kodowania w zależności od charakterystyki danych w kolumnach. Potrafi również rekomendować odpowiedni algorytm analizując dane i zapytania uruchamiane na nich.

 

Podczas pracy baza danych pracuje na wartościach zakodowanych tak długo jak to możliwe. Dzięki temu, że dekompresja/dekodowanie następuje w ostatnim momencie baza zużywa mniej zasobów i osiąga wyższą wydajność.


Skontaktuj się z nami, a my pomożemy Ci nieodpłatnie rozpocząć pracę z Vertica.


Kontakt