Nowości w SPSS Modeler 18.2

Start / Blog / Nowości w SPSS Modeler 18.2


W ostatnich dniach roku 2018, po przeszło 12 miesiącach zbierania informacji zwrotnych od klientów, IBM opublikował nowe wersje produktów z rodziny SPSS – IBM SPSS Modeler 18.2 oraz IBM SPSS Collaboration & Deployment Services 8.2. W niniejszym artykule przedstawimy zmiany wprowadzone w pierwszym z nich.

Podstawowym oczekiwaniem użytkowników, zidentyfikowanym przez IBM była modernizacja interfejsu oraz dodanie możliwości nowoczesnej, wizualnej prezentacji wyników analiz. Ponadto rozszerzono paletę węzłów opartych na algorytmach wywodzących się z narzędzi Open Source.


Nowy interfejs użytkownika i wizualizacja wyników

Podstawową zmianą, która rzuca się w oczy już przy pierwszym uruchomieniu narzędzia jest odświeżony interfejs graficzny. Należy przyznać, że wprowadzone zmiany nadały narzędziu lekkości i nowoczesnego wyglądu. IBM pomyślał także o użytkownikach przywiązanych do tradycyjnego wyglądu narzędzia i umożliwił im zmianę interfejsu na jedną z historycznych wersji- SPSS Classic lub SPSS Standard.




Kolejną nowością jest możliwość zwizualizowania wyników pracy na każdym etapie przepływu danych (na każdym węźle). Funkcjonalność działa w sposób analogiczny do popularnej opcji Podgląd. Wystarczy po kliknięciu prawym przyciskiem myszy z rozwijalnego menu wybrać opcję Wyświetl. Spowoduje to otwarcie nowego okna, w którym będziemy mogli zbudować pojedyncze wizualizacje, a nawet złożyć z nich kokpit menadżerski.




Po otwarciu okna użytkownik wskazuje zmienne (kolumny) z których chciałby zbudować wizualizację, a SPSS podpowiada, która z przygotowanych 24 rodzajów wizualizacji najlepiej sprawdzi się do zaprezentowania wybranego zestawu danych. Do wyboru użytkownika pozostawiono podstawowe, dobrze znane wykresy jak słupkowy, kołowy czy rozrzutu oraz te mniej popularne, takie jak radarowy, relacji czy mapa natężeń.




Dalsza integracja z narzędziami Open Source

Zgodnie z wcześniejszymi zapowiedziami, SPSS Modeler został rozbudowany o kolejne węzły wykorzystujące język programowania Python, a mianowicie Mieszanina rozkładów Gaussa, Symulacja KDE, Modelowanie KDE oraz HDBSCAN.





Mieszanina Rozkładów Gaussa (Gaussian Mixture) to model probabilistyczny, w którym zakłada się, że punkty danych generowane są na podstawie skończonej liczby rozkładów Gaussa o nieznanych parametrach. Mieszaninę Rozkładów Gaussa można uznać za uogólnienie klastrowania metodą K-średnich z uwzględnieniem kowariancji i informacji o środkach ukrytych rozkładów Gaussa.

Węzły KDE (Kernel Density Estimation) Jądrowy estymator gęstości (KDE) to popularna i użyteczna technika wyznaczania gęstości rozkładu w oparciu o analizę sąsiedztwa. Działa na pograniczu uczenia nienadzorowanego, generowania cech (feature engineering) i modelowania danych oraz wykorzystuje algorytmy Ball Tree lub KD Tree. Może być realizowany w dowolnej liczbie wymiarów, lecz niestety kosztem wydajności. Węzeł Modelowanie KDE generuje model użytkowy oceniający gęstość jądra danych wejściowych a węzeł Symulacja KDE generuje węzeł źródłowy zawierający rekordy o tym samym rozkładzie, co dane wejściowe.

HDBSCAN (Hierarchical Density Based Spatial Clustering) to węzeł korzystający z algorytmu uczenia nienadzorowanego do wyszukania skupień lub regionów o dużej gęstości w zbiorze danych. Algorytm HDBSCAN wyświetla skupienia jako obszary o dużej gęstości rozdzielone obszarami o małej gęstości, w związku z czym odnalezione skupienia mogą przyjąć dowolny kształt – nie muszą być wypukłe, jak w metodzie K-średnich.


Pozostałe udogodnienia.

Warte odnotowania są również nowe węzły źródłowe i eksportowe, które umożliwiają korzystanie z danych zapisanych w formacie JSON.

SPSS Modeler od wersji 18.2 rozszerza możliwość przeprowadzania obliczeń po stronie bazy danych DB2. Dzięki temu, wykorzystując moc obliczeniową DB2 oraz graficzny interfejs SPSS, użytkownik może tworzyć modele w oparciu o następujące algorytmy: Drzewa decyzyjne, K-średnich, Sieci Bayesa, KNN, PCA, Regresję liniową, modele liniowe itp.


Plany na rok 2019

Interesująca jest też opublikowana przez IBM roadmapa na 2019 rok, w której zaprezentowane są zmiany, które czekają nas w najbliższych kwartałach. Zapowiadane są ulepszenia pozwalające użytkownikom na łatwiejsze przygotowanie i oczyszczenie danych wejściowych, nowe węzły modelowania, dalsza integracja z Pythonem, a także ulepszenia dotyczące automatycznego doboru zmiennych do modeli. Czekamy z niecierpliwością!