Powrót do bloga

#04 Podcast: Hurtownie danych w praktyce

Krzysztof Kopieczek
26/11/20225 min

Niedawno ukazał się kolejny odcinek podcastu z serii „Praca w Chmurach… i nie tylko”, którą przygotowałem z myślą o developerach, architektach i pasjonatach tematyki chmurowej.

Czwarty odcinek: O hurtowniach danych

W tym odcinku moim Gościem był Piotr Kalinowski, Cloud Data Engineer & Consultant w firmie Chmurowisko.
Współpracował z największymi instytucjami finansowymi w Polsce, zajmując się architekturą i tworząc zaawansowane systemy przetwarzania danych. W swoim dorobku posiada wiele projektów z obszaru Fintech, Machine Learning czy AI z wykorzystaniem technologii tj. Amazon Web Services, Microsoft Azure, czy Alibaba Cloud. Trener Szkoły Chmury. Prywatnie bloger, tancerz i “głowa rodziny”.

O czym rozmawialiśmy? Między innymi o tym, że big data, machine learning, data science czy data warehouse… to nie tylko buzzwordy, ale rozwiązania, które przynoszą wymierne korzyści organizacjom.

Z Piotrem, który ma na swoim koncie wiele projektów w tych technologiach próbowaliśmy nieco odczarować w/w pojęcia przytaczając doświadczenia mojego Gościa z pracy z nowoczesnymi hurtowniami danych.

Słuchaj na Spotify! -> Link do #04 odcinka

Czego dowiedziałem się z tego odcinka?

Rozmowa z Piotrem rozjaśniła mi wiele w temacie data warehouse. Dowiedziałem się, że hurtownie danych służą do analizowania dużej ilości danych, które te przetwarzają w optymalny i efektywny sposób.

Jednak co warto wiedzieć, takie hurtownie w chmurze są stosunkowo drogie. Dlatego klienci wybierają często model data-lakehouse, który pozwala oddzielić “compute od storage”.

Ten pierwszy ze sposobów pozwala na spore oszczędności kosztów. Dalsze optymalizacje są możliwe przez odpowiednie rozłożenie danych na warstwy (raw, bronze, silver, gold).

Drugim sposobem na optymalizację kosztów jest wykorzystanie modelu ELT, zamiast ETL. Czyli, takiego gdzie chmura zajmuje się transformowaniem danych.

Co ważne, powinniśmy pamiętać, że hurtowania danych nie służy do wyciągania wniosków real time.  Do tego zadania potrzebujemy nieco innej logiki np. oprogramowania, czy dedykowanego systemu.

Kolejnym tematem jest kwestia wizualizacji danych. I jak się dowiedziałem, jest to całkiem osobna tematyka, rozwijana w 3 niezależnych specjalizacjach:

  1.  BI – prezentowane wysokopoziomowe spojrzenie (np. w postaci wykresów) -> i tu zachęcam do przesłuchania odcinka O Business Intelligence w Power BI 
  2.  Data Analyst -> używa sql, python, r do analizy ad-hoc
  3. Data Scientist -> ML wykorzystywany do odpowiadania na pytania o przyszłość 

Gdzie posłuchasz odcinka nt. pracy freelancera?

ps. Obiecane materiały!

Miłego słuchania!
Znajdziesz mnie na TT @kopieczek_dev oraz na LinkedIn.

AKTUALNOŚCI
09/11/20225 min
Migracja systemu Dynamic Precision do Oracle Cloud

Grupa Dynamic Precision podjęła decyzję o unowocześnieniu swojej infrastruktury. Razem z Oracle Polska prowadzimy migrację aplikacji firmy do chmury OCI.

Zobacz wpis
AKTUALNOŚCI
25/10/20223 min
Chmurowisko Live z Esterą Kot @Microsoft

Najnowsze spotkanie CHM Live będzie poświęcone tematyce AI i temu jak sztuczna inteligencja przenika do codzienności każdego z nas. Gościem Damiana Mazurka będzie Estera Kot.

Zobacz wpis
AKTUALNOŚCI
19/09/20222 min
Cloud Value Professional Program – już wkrótce!

Chcesz zbudować wiedzę chmurową w swojej organizacji? A może szukasz sposobu jak rozwinąć swoje umiejętności chmurowe?
Przygotowujemy dla Was coś specjalnego…

Zobacz wpis
AKTUALNOŚCI
Migracja systemu Dynamic Precision do Oracle Cloud

Grupa Dynamic Precision podjęła decyzję o unowocześnieniu swojej infrastruktury. Razem z Oracle Polska prowadzimy migrację aplikacji firmy do chmury OCI.

Zobacz wpis

Zapisz się do naszego newslettera i
bądź z chmurami na bieżąco!

Zostaw nam swój e–mail a co miesiąc dostaniesz spis najważniejszych nowości
z chmur Azure, AWS i GCP, z krótkimi opisami i linkami.