W ostatnim artykule na blogu pisaliśmy o koncepcji strategicznego pozyskiwania danych. Jest to pierwszy krok do zbudowania firmy opartej na AI. Jeśli nie czytałeś artykułu, zachęcamy do zajrzenia tutaj. Natomiast w poniższym artykule chcemy podkreślić znaczenie kolejnych kroków związanych z wdrażaniem systemów opartych na pozyskanych danych. Po zdobyciu danych następuje więc ich ANALIZA. Pozyskanie odpowiednich danych będzie całkowicie bezużyteczne, jeśli nie będziemy potrafili odpowiednio ich przeanalizować i wykorzystać. 

Badanie przeprowadzone przez Digital Universe opublikowane w The Guardian wykazało, że w 2012 r. tylko 0,5% wszystkich danych podlegało jakiejkolwiek analizie. Według Analytics Weeks w 2017 r. ta liczba jest wciąż taka sama.

Powyższe statystyki ukazują nam niesamowity potencjał, jaki tkwi w danych. Wystarczy wyobrazić sobie, jakim przełomem byłoby, gdyby wszystkie zebrane dane były poddawane analizie w czasie rzeczywistym, a rozwiązanie pojawiało się w momencie powstania problemu. Jeśli chcemy to osiągnąć, musimy nauczyć się, jak skutecznie zarządzać dużymi zbiorami danych (ang. big data).

Aby wprowadzić strategiczne pozyskiwanie danych w Twojej firmie, musisz wiedzieć, jak postępować w przypadku ogromnych ilości danych. Ważne jest również, aby zrozumieć powód uruchomienia produktu, nawet przy niewielkiej ilości danych. Ten krótki tekst stanowi wprowadzenie do podstawowej wiedzy, którą każdy powinien posiadać na temat sposobów przechowywania, analizowania i zarządzania danymi.

Data Science

Data science to nauka, która koncentruje się na sposobach przetwarzania danych.

Data scientist to termin oznaczający badacza danych, który został spopularyzowany przez magazyn Harvard Business Review w 2012 roku. W języku polskim jest niekiedy tłumaczony na „mistrz danych”. Data scientists szukają wartościowych informacji w danych i tworzą hipotezy na temat ostatecznych wyników.

Niektóre dane mogą zakłócać proces analizy. Konieczne jest wtedy ich wykrycie dokonanie korekty (pominięcie zbędnej części danych). Jednak to zadanie nie wchodzi już w zakres obowiązków data scientist. Jest to praca, która wymaga doskonałych umiejętności analitycznych.

Wzorcowy krąg AI

Wzorcowy krąg sztucznej inteligencji obrazuje cykl rozwoju produktu oparty na sztucznej inteligencji. Warto zwrócić uwagę na prostotę tego procesu opartego na informacjach z cały czas gromadzonych danych, które umożliwiają ciągłe doskonalenie produktu.

Andrew Ng, profesor informatyki na Uniwersytecie Stanforda, do którego odwołaliśmy się już w poprzednim artykule, przedstawia proste wyjaśnienie tego procesu. Nowo wprowadzony produkt, stworzony w oparciu o małą ilość danych, przyciąga jakąś liczbę użytkowników. Gdy użytkownicy wchodzą w interakcję z produktem, dostarczając firmie na jego temat więcej danych. Te nowo pozyskane dane mogą zostać przetworzone przez program oparty Machine Learning. W ten sposób są wykorzystywane w celu ulepszenia produktu. Produkt zdobywa nowych użytkowników i cały proces się powtarza.

W kręgu AI produkt cały czas podlega poprawie, w oparciu o dane analizowane w czasie rzeczywistym. Aby ten proces mógł się rozpocząć, pierwotna wersja produktu musi być „wystarczająco dobra”, aby zainteresowała użytkowników. Gdy to nastąpi, ilość pozyskiwanych danych będzie z każdym cyklem coraz większa. Z biegiem czasu proces zaczyna sam się napędzać. Im więcej mamy użytkowników, tym więcej danych pozyskujemy. A im więcej mamy danych, tym skuteczniej możemy ulepszyć nasz produkt lub usługę.

Ujednolicone hurtownie danych

Ujednolicone hurtownie danych (ang. unified data warehouses) są potrzebne, gdy organizacje zbierają duże ilości zróżnicowanych danych z wielu źródeł. Są przydatne, gdy firma dysponuje dużymi zbiorami danych, których nie można przetworzyć tradycyjnymi metodami. Hurtownie danych to inaczej bazy danych, w których przechowywane są wszystkie dane organizacji, dostępne dla pracowników firmy. Możliwość przechowywania wszystkich danych w jednym miejscu to ich największa zaleta. Skutkuje to bardziej wydajnym procesem decyzyjnym, w którym nie traci się czasu na oddzielnie analizy.

Ujednolicone hurtownie danych umożliwiają przechowywanie dużych ilości zróżnicowanych danych

Ich kolejną zaletą jest zwiększona skuteczność podejmowanych decyzji, dzięki zawsze aktualnym informacjom. Wyniki otrzymane z analizy danych mają lepszą jakość, ponieważ hurtownie umożliwiają pominięcie wspomnianych wcześniej zbędnych danych. Ponadto umożliwiają wyciąganie danych z różnych, niepołączonych źródeł.

Podsumowując, ujednolicone hurtownie danych umożliwiają przechowywanie dużych ilości zróżnicowanych danych pochodzących z całkowicie niepowiązanych źródeł. Pomagają w zestawianiu niezrozumiałych początkowo informacji i generowaniu na tej podstawie wartości. Hurtownie danych stanowią idealne środowisko do przechowywania, zarządzania i analizy danych.

Ilość danych a wydajność

Powyższy wykres prezentuje tendencję, z jaką zmienia się wydajność modelu wraz ze wzrostem ilości danych. Trend pokazuje, że wraz ze wzrostem ilości danych wzrasta wydajność przy użyciu modeli wykorzystujących uczenie maszynowe (UM) lub sieci neuronowe (SN). Jednak przy mniejszych ilościach danych zauważalna jest nieco inna korelacja.

Proste algorytmy uczenia maszynowego i małe sieci neuronowe mogą przetwarzać mniejsze ilości danych bardziej wydajnie niż te największe sieci neuronowe. Dlatego nie zawsze korzystanie z dużych sieci neuronowych przyniesie nam pozytywne rezultaty. Jeśli dysponujemy małymi zbiorami danych, tradycyjne algorytmy oparte na uczeniu maszynowym znacznie lepiej się sprawdzą.

Ważne więc jest świadomy wybór modelu do analizy naszego zestawu danych. Zadecyduje to nie tylko o wiarygodności wyników, ale też czasie i kosztach przetwarzania danych. Mniej skomplikowane algorytmy są znacznie tańsze i mniej czasochłonne, więc w niektórych sytuacjach będą bardziej odpowiednie.

Podsumowując

Po strategicznym pozyskaniu danych opisanych w poprzednim artykule, następnym krokiem firmy opartej na AI będzie prawidłowe zarządzanie tymi danymi. Ujednolicone hurtownie danych to idealna przestrzeń do przechowywania wszystkich rodzajów danych. Umożliwiają one łatwy dostęp do danych oraz ich dalszą eksplorację i analizę. Badacze danych (data scientists) przetwarzają pozyskane informacje w celu odkrycia ich wartości dla firmy. Ich praca ma szczególne znaczenie przy przetwarzaniu dużych zbiorów danych (big data).

W kontekście danych często używamy pojęcia big data. Nie oznacza to jednak, że bez dużej ilości danych nie stworzymy firmy opartej na AI. Na początku możemy skorzystać z niewielkiej ilości danych i na ich podstawie stworzyć pierwotną wersję produktu czy usługi. Idealny krąg AI obrazuje nam, że w trakcie trwania tego procesu danych będzie cały czas przybywało. Jest to więc proces dość dynamiczny. Dlatego musimy uwzględnić wybór odpowiednich narzędzi opartych na uczeniu maszynowym lub sieciach neuronowych, które będą odpowiadały naszym potrzebom. Rozpoczęcie opisanego przez nas procesu będzie wymagało różnych zmian, ale może przynieść wiele korzyści płynących z wdrożenia technologii opartych na AI.