DataInsiders.Space

#zerobuzzwords

Helping discover POWER OF DATA, as today, it’s all about data and its value!

MailChimp

Helping discover POWER OF DATA, as today, it’s all about data and its value!

MailChimp

#zerobuzzwords

Magicy od danych – Odcinek 1: Dawno, dawno temu…

Gdy w 2007 roku spotkałem na swojej drodze zawodowej Pawła Potasińskiego rozmawialiśmy m.in. o znajomości zapytań SQL, ich optymalizacji, poprawności instalacji i konfiguracji serwerów baz danych czy budowaniu wielowymiarowych kostek analitycznych. Śmiało można stwierdzić, że w tamtym okresie role takie jak Programista baz danych, Administrator baz danych(DBA) stanowiły znaczącą większość ról technicznych związanych ze światem danych. Z czasem, do tego grona zaczęli dołączać developerzy rozwiązań Business Intelligence. Ciekawe jest to, że role odpowiedzialne za architekturę były najczęściej dość generyczne tzn. byli to architekci rozwiązań czy też architekci IT, którzy adresowali tematy architektury od A do Z. Skąd takie spostrzeżenia? Otóż w tamtym okresie jedną z głównych czynności, obok projektów były prowadzone przeze mnie szkolenia nakierowane stricte na obszar rozwiązań bazodanowych ( BTW. Tomasz Siemek – pisząc ten artykuł miło było wspomnieć centrum szkoleniowe, które już wtedy rozwijałeś), a profil osób w nich uczestniczących to właśnie wspomniane przeze mnie role. Co zmieniło się przez te 13 lat? Jak ewaluował świat danych i role z nim związane? Jakie umiejętności nabywały osoby, które pracują z zdanymi od tamtego czasu, aż do dzisiaj. No i oczywiście jak zmieniła się w tym czasie technologia?

Zmiana jest jedyną stałą …

13 lat w życiu człowieka to sporo. W świecie technologii to przepaść. Wystarczy wspomnieć, że w 2016/2017 roku, mówiło się, iż 90% wszystkich danych powstało w ostatnich dwóch latach (Źródło: IBM Marketing Cloud Report), a ich ilość miała się podwajać każdego roku, aż do 2020. Efekt? – wolumeny danych przestały być liczone w Megabajtach czy gigabajtach, a w ich miejsce pojawiły się setki zetabajtów danych (1 ZB = 1 trylion gigabajtów). 

Skąd taki przyrost?

Wśród głównych czynników można niewątpliwie wskazać rozwój nowych, nieznanych (lub niewykorzystywanych) wcześniej źródeł danych np. social media czy sensory (IoT). Już w 2014 roku, firmy średnio wykorzystywały 10+ źródeł danych na potrzeby swojej działalności, a ok. 18% wśród firm wskazywało, że takich źródeł ma nawet ponad 20 (BARC Study 2014).  Oczywiście za chęcią, a wręcz potrzebą gromadzenia i przetwarzania tych danych stoi biznes. Ludzie, firmy, organizacje, który zauważyły i nadal zauważają, że dzięki umiejętnemu wykorzystaniu danych możliwe jest szybsze i sprawniejsze podejmowanie decyzji, a to oznacza przewagę i znaczący zwrot z inwestycji. Wśród wielu prezentacji wzrost zwrotu z inwestycji w dane przedstawiany  jest  w postaci prostej zależność:

[dane + analityka + ludzie ] * prędkość

(Źródło: IDC, Realizing the Data Dividend)

Wniosek jest dość prosty…..

Wzrost liczby ludzi zajmujących się danymi w organizacji, z wykorzystaniem nowych możliwości analitycznych, przy coraz większej dostępności danych, wykonany odpowiednio szybko prowadzi firmę do większego zwrotu z inwestycji, rozwoju firmy jak i zwiększa bezpośrednie zyski. Oczywiście jak powszechnie wiadomo, apetyt rośnie w miarę jedzenia, a tym samym oczekiwania w zakresie Time-to-Market czy Time-to-Return również stale rosną, a to przekłada się bezpośrednio na większe wymagania w zakresie efektywności analizy danych, stosowania nowych(a czasem starych ale odkrytych na nowo) metod analizy danych czy leżącej u podstaw efektywnej analizy prędkości przetwarzania pozyskanych danych (Do tego jeszcze wrócimy!).  Istotną konsekwencją wspomnianych potrzeb, prędkości i efektywnej analizy jest również zmiana formy realizacji projektów z obszaru danych (również innych, ale to inna kwestia). Mówiąc o formie, mam na myśli chociażby odejście w wielu przypadkach od planowania projektu w modelu kaskadowym i zwrot w kierunku działań zwinnych. Jest to dość zrozumiałe – patrz punkt dot. chociażby Time-to-Market. Warto jednak pamiętać, że nawet najbardziej zwinny model wymaga odpowiedniego planowania, badania postępu i zarządzania budżetem.

A skoro o budżetach mowa….

Nie da się ukryć, że projekty związane z analizą danych czy budowaniem platform raportowych w wielu przypadkach zyskały nowych sponsorów. O ile wcześniej duża część tego typu projektów finansowana była jako projekty obszaru IT, obecnie pieniądze na ich realizację pochodzą z różnych źródeł, w tym źródeł biznesowych, stawiając je na równi z innymi inwestycjami biznesowymi, jak również narzucając pewne wymagania, chociażby w zakresie technologii, której odbiorcami są użytkownicy biznesowi. Wspomniane wymagania w perspektywie czasu przełożyły się na zbudowanie nowych gałęzi narzędzi technologicznych wspierających popularne i często nadużywane pojęcie demokratyzacji danych, uczenia maszynowego czy wreszcie sztucznej inteligencji. (To temat na oddzielny artykuł, więc zostawmy to teraz).

Jakie zatem zmiany zaszły w obszarze technologicznym wymuszone czy też spowodowane przez przytoczone powyżej aspekty biznesowe?

Przede wszystkim zmiany są bardzo widoczne w liczbie narzędzi i usług, które powstały lub zostały rozbudowane, aby adresować pojawiające się wymagania. Dobrym przykładem takich zmian jest chociażby rozbudowa platform o „umiejętność” obsługi danych strumieniowych. Oczywiście klasyczne operacje transakcyjne nadal funkcjonują, dostarczając danych w systemach takich jak CRM, ERP, jednak również tego typu systemu coraz częściej zasilane są danymi strumieniowymi, wspomagane przez odpowiednio skalowalne usługi, które pozwalają przetwarzać setki megabajtów danych na sekundę.  Duża zmienność danych w czasie spowodowała także, że oprócz dobrze znanych baz relacyjnych o określonej strukturze tabel, rozwinęły się systemy nierelacyjne, pozwalające na przechowywanie danych niemal w dowolnej postaci, co możliwe jest dzięki stosowaniu w architekturze danych nie tylko silników bazodanowych, ale również przestrzeni obiektowych o płaskiej lub hierarchicznej strukturze danych. Patrząc na te zmiany z perspektywy  procesu przetwarzania danych zauważyć można odejście od schematu ETL (Extract-Transform-Load) w kierunku ELT, czyli Extract Load Transform. Wynika to z kliku kwestii. Pierwszą z nich jest chęć szybszego pozyskiwania danych ( a jak wiadomo transformacja wymaga czasu),ale również konieczności – ponieważ coraz częściej dysponujemy  krótszym oknem na załadowanie danych i udostępnienie ich do kolejnych kroków procesu. Inną przyczyną jest chęć posiadania możliwie najbardziej „surowej” postaci danych, aby zapewnić swobodę ich transformacji na dalszym etapie. Wśród kluczowych zmian w technologii należy wskazać również pojawienie się narzędzi/platform nakierowanych na użytkownika o profilu biznesowym. Możliwości samodzielnej budowy wizualizacji danych, czy procesów ETL/ELT w modelu “drag&drop”, pomimo, że nadal niedoskonałe i wymagające przyuczenia, stają się coraz bardziej popularne.

Niewątpliwie, zwłaszcza w ostatnich kilku latach, nieodłącznym elementem technologicznym świata danych staje się wykorzystanie „usług w chmurze”.

Istotnie to właśnie w obszarze przetwarzania, transformacji  danych czy wykorzystania uczenia maszynowego aspekty chmury publicznej takie jak skalowalność czy możliwości wykorzystywania podejścia zdarzeniowego w przetwarzaniu danych staje się kluczowe.

„Chmura” to również zupełnie nowe wyzwania dla osób zajmujących się na co dzień obszarem danych

Kwestie nowych możliwości jak chociażby dystrybucja danych, zrównoleglenie procesów, separacja warstwy przechowywania danych od warstwy obliczeniowej czy umiejętne wykorzystanie funkcji automatycznego uczenia maszynowego. Te i inne elementy przekładają się bezpośrednio na  kompetencje osób zaangażowanych w projekty jak i wykorzystywaną technologie. Jednak o tym szczegółowo dopiero w drugim odcinku….

A Ty zauważasz zmiany w swoich kompetencjach jako  osoby związanej ze światem danych? Może chcesz opowiedzieć o tym podczas krótkiej rozmowy ? Daj znać w komentarzu.

Update:

Czytaj dalej :https://www.datainsiders.space/index.php/2020/05/10/magicy-od-danych-odcinek-2-co-ja-tutaj-robie/

ZOSTAW ODPOWIEDŹ

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *