Dwudziestego czerwca premierę miała kolejna wersja flagowego narzędzia analitycznego IBM – SPSS Modeler. W narzędziu nie brakuje nowości, z których najciekawsze koncentrują się wokół integracji z narzędziami open source.
Kluczową nowością są węzły pozwalające korzystać z techniki, która w ostatnich miesiącach bardzo mocno zyskała na popularności wśród ludzi zajmujących uczeniem maszynowym, co odzwierciedlają m.in. wyniki konkursów na platformie kaggle – XG Boost. Technika stanowi bardzo skuteczny i wydajny klasyfikator. Opis wspomnianej techniki w formie osobnego artykułu znajdzie się niedługo na naszym blogu.
Oprócz dwóch napisanych w języku Python węzłów XG Boost narzędzie wzbogacone zostało węzły:
-
SMOTE – napisany w języku Python algorytm służący do balansowania niezrównoważonych próbek danych;
-
SVM z jedną klasą– napisany w języku Python algorytm, który sprawdza się bardzo dobrze w wykrywaniu anomalii i nowości z zbiorze danych.
Przebudowie uległy węzły do pisania skryptów w języku R. Od obecnej wersji skrypty w ramach węzłów można pisać także korzystając z Python for Spark, co wiąże się także z lekką zmianą nazewnictwa i ikon węzeł. Dodatkowo, pojawiły się węzły służące do importu i eksportu danych za pomocą skryptu – import danych przez rozszerzenie, eksport danych przez rozszerzenie.
Python w wersji 2.7 oraz Spark 2.0 instalowany jest od razu z narzędziem IBM SPSS Modeler. Dodatkowo SPSS Modeler działa z dowolną wersję R, a nie jak to miało miejsce wcześniej – jedną konkretną.
Kolejną nowością, która cieszy nas jako firmę pracującą nad pierwszymi w Polsce wdrożeniami narzędzia optymalizacyjnego – IBM CPLEX Optimization Studio, jest rozbudowana integracja SPSS Modeler z liderem wśród solverów. Wcześniejsza integracja obu narzędzi odbywała się z poziomu CPLEX-a. Obecnie SPSS Modeler wzbogacony został o węzeł umożliwiający uruchamiania skryptów napisanych w języku OPL, do rozwiązywania których konieczne jest jednak posiadanie narzędzia IBM CPLEX Optimization Studio.
Od bieżącej wersji SPSS Modeler może odczytywać i zapisywać dane bez użycia SPSS Analytic Server do narzędzi: BigInsights, Hortonworks poprzez BigSQL, Hive oraz Cloudera Impala. Nie oznacza to, że wspomniany konektor staje się bezużyteczny – obecnie pełni on analogiczną rolę, jak SPSS Modeler Server przy pracy z relacyjną bazą danych.
Z pozostałych nowości warto wskazać funkcję automatycznego zapisywania strumieni podczas pracy z narzędziem, eksportu wykresów jako obiektów graficznych MS Office, importu danych z należącego do IBM serwisu The Weather Company oraz uaktualnienie po stronie wspieranych systemów operacyjnych i źródeł danych. Poprawiony też został węzeł budowy modeli szeregów czasowych, który w wersji 18 sprawiał pewne kłopoty. Przy okazji uaktualnione zostały też narzędzia IBM SPSS Collaboration & Deployment Services oraz IBM SPSS Analytic Server.
P.S. Zastanawiające jest, dlaczego najnowsza wersja nie otrzymała numeru 19, tylko 18.1. Wydaje się, że IBM postanowił trochę zwolnić z numeracją kolejnych wersji i zwiększać ją tylko w przypadku gruntownych zmian w narzędziu.