Mistrz analizy danych. Od danych do wiedzy John W. Foreman

Jeśli nie masz pojęcia na temat statystyki, ale chciałbyś to nadrobić, to ta książka może Ci w tym pomóc. Daj jej tylko szansę i dokładnie przeczytaj każdy rozdział. Na pewno zorientujesz się, że statystyka wcale nie jest straszna.

Analiza danych jest źródłem nieocenionej wiedzy. Wiedza, natomiast jest potęgą i kluczem do sukcesu każdego przedsiębiorcy. W związku z tym ważne jest, by właściwie wyszukiwać dane i analizować je. W efekcie otrzymuje się wnioski, których wprowadzenie w życie może dać zaskakująco pozytywne skutki. Przepis na to jak zostać mistrzem analizy danych podaje John W. Foreman.

O autorze – bogate doświadczenie daje dobre rezultaty

John W. Foreman pracuje na stanowisku głównego analityka danych w MailChimp.com (program do przygotowywania oraz rozsyłania newsletterów). Foreman udziela też porad dotyczących analizy danych takim firmom jak Coca-Cola czy Intercontinental Hotels, a także oraz amerykańskim agendom rządowym. Znany jest też z wygłaszania prelekcji.

Wprowadzenie

Książka „Mistrz analizy danych. Od danych do wiedzy” rozpoczyna się od przedstawienia samego autora. Wyjaśnia on, dlaczego ma prawo uczyć o analizie danych i skąd czerpie swoją wiedzę. Tłumaczy, po co właściwie warto analizować dane i jakie ma to znaczenie dla sukcesu każdego przedsiębiorstwa. Nie unika też pytań do czytelnika. Odbiorca tekstu też powinien zastanowić się nad tym, kim jest i czego oczekuje po samej książce. Podręcznik składa się z 10 rozdziałów, które w szczegółowy sposób opisują wybrane zagadnienia. Trzeba też zaznaczyć, że są one przedstawione w sposób dość przystępny i nie opierają się tak bardzo na liczbach jak inne podręczniki do analizy danych.

Arkusze kalkulacyjne

Podstawą do analizowania danych według Johna W. Foremana są arkusze kalkulacyjne. Na początek, autor przedstawia jak korzystać z nich szybko i wydajnie. Niektóre z zagadnień są poruszane na lekcjach informatyki już w szkole podstawowej (formatowanie komórek, wstawianie wykresów, wklejanie wartości specjalnych). Pojawiają się też zagadnienia trudniejsze – tabele przestawne i narzędzie OpenSolver. Wszystko to nie jest żadną specjalistyczną wiedzą tajemną, jednak jest potrzebne, by ruszyć z tematem dalej. W końcu nie można mówić o jakiejkolwiek analizie danych bez wcześniejszego przygotowania samych danych.

Bazy klientów

W następnych rozdziałach „Mistrz analizy danych” skupia się na bazach klientów. Jest to w ramach analizy skupień i zastosowania algorytmu centroidów do segmentowania bazy klientów. Sam tytuł może brzmieć dość skomplikowanie, ale szybko się wyjaśnia. Autor wykorzystuje liczne przykłady, ma których tłumaczy realne problemy i zagadnienia. Tłumaczy jak określić, co chcemy zmierzyć, wyznaczyć odległość euklidesową, analizować otrzymane wyniki, a w ostateczności jak ustalić najlepsze oferty dla wybranych grup klientów. Są to problemy, które regularnie powtarzają się w pracy każdego przedsiębiorcy. Umiejętność ich rozwiązywania może mieć wymierne efekty w sukcesie finansowym firmy.

Rachunek prawdopodobieństwa

Foreman nie chce tracić czasu na wprowadzanie swoich czytelników w rachunek prawdopodobieństwa oraz rządzące nim zasady. Wychodzi z założenia, że każdy powinien był spotkać się z nim w szkole. Jedynie szybko przypomina, na czym on polega oraz dlaczego warto pamiętać o jego istnieniu. Okazuje się bowiem, że rachunek prawdopodobieństwa ma kolosalne znaczenie dla właściwej analizy danych. Klasyczny rachunek prawdopodobieństwa nazywa „naiwnym klasyfikatorem bayesowskim”, ale równocześnie czerpie niezwykle dużo z jego zasad. Przypomina, jak należy obliczać prawdopodobieństwo warunkowe, części wspólnej, regułę łańcuchową oraz niezależność różnych elementów.

Analiza skupień

Następna część książki poświęcona jest analizie skupień w kontekście grafów i analizy sieci. Forman zachęca do korzystania z Gephi. W związku z tym instruuje jak go zainstalować oraz jak z niego korzystać, tak by mieć dostęp do jego pełnego potencjału obliczeniowego. Dużą zaletą programu Gephi jest możliwość edytowania tworzonych grafów oraz późniejszego ich wydrukowania. Dzięki temu zyskuje się grafy łatwe w analizowaniu oraz takie, które można dołączać do oficjalnych dokumentacji. Następnie „Mistrz analizy danych” skupia się na problemie regresji liniowej. Jako przykład podaje przewidywanie ciąży klientów na podstawie właśnie regresji liniowej. Udowadnia, że wystarczy zebrać właściwy zbiór cech, a następnie utworzyć zmienne fikcyjne. Oczywiście, nie obędzie się bez zastosowania parametrów regresji liniowej – współczynnika determinacji, testu F oraz testu t. Dla kontrastu przedstawiono też przewidywanie ciąży klientów na podstawie regresji logistycznej. Wykorzystując dwie różne metody do wyznaczenia tego samego prawdopodobieństwa, można łatwo zanalizować występujące pomiędzy nimi różnice. To dobry sposób też na to, by porównać otrzymane wyniki. Na szczęście Forman prowadzi swojego czytelnika za rękę, przedstawiając mu wymienione wyżej zagadnienia po kolei, krok po kroku. Każdy może, więc zrozumieć cały przedstawiony materiał.

Prognozowanie

Niezwykle ważnym aspektem jest prognozowanie. Właśnie po to analizuje się dane. Głównym celem jest wyciąganie wniosków, które są podstawą do przewidywania przyszłości (mniej lub bardziej trafnego). Autor uspokaja, że przy prognozowaniu nie ma sensu się denerwować. Do tematu należy podchodzić spokojnie, bo absolutnie każda, nawet najlepsza prognoza przygotowana przez światowej klasy specjalistów – może okazać się błędna. Warto prognozować, ale zawsze trzeba pamiętać, że na świecie występują czynniki, których nie sposób wyrazić matematycznie i uwzględnić w swoich obliczeniach oraz analizach. Czasami, rzeczy po prostu się dzieją.

Stopień odchylenia, czyli metoda Tukeya

Autor książki poświęca też trochę miejsca na opisanie elementów odstających od reszty. To, że coś jest inne niż większość elementów w zbiorze, nie jest wcale równoznaczne z tym, że nie jest istotne. Wręcz przeciwnie. Może okazać się, że pod pewnym względem jest nawet najważniejsze. Do obliczeń stopnia odchylenia wykorzystuje się metodę Tukeya, która również została przedstawiona w tym konkretnym podręczniku analizy danych. Warto zauważyć, że książka ta jest skierowana raczej do osób, które dopiero raczkują w dziedzinie analizy danych. To raczej wiedza podstawowa, która może być dobrym startem do szerszego poznania tematu.