#04 Podcast: Hurtownie danych w praktyce
Niedawno ukazał się kolejny odcinek podcastu z serii „Praca w Chmurach… i nie tylko”, którą przygotowałem z myślą o developerach, architektach i pasjonatach tematyki chmurowej.
Czwarty odcinek: O hurtowniach danych
W tym odcinku moim Gościem był Piotr Kalinowski, Cloud Data Engineer & Consultant w firmie Chmurowisko.
Współpracował z największymi instytucjami finansowymi w Polsce, zajmując się architekturą i tworząc zaawansowane systemy przetwarzania danych. W swoim dorobku posiada wiele projektów z obszaru Fintech, Machine Learning czy AI z wykorzystaniem technologii tj. Amazon Web Services, Microsoft Azure, czy Alibaba Cloud. Trener Szkoły Chmury. Prywatnie bloger, tancerz i “głowa rodziny”.
O czym rozmawialiśmy? Między innymi o tym, że big data, machine learning, data science czy data warehouse… to nie tylko buzzwordy, ale rozwiązania, które przynoszą wymierne korzyści organizacjom.
Z Piotrem, który ma na swoim koncie wiele projektów w tych technologiach próbowaliśmy nieco odczarować w/w pojęcia przytaczając doświadczenia mojego Gościa z pracy z nowoczesnymi hurtowniami danych.
Słuchaj na Spotify! -> Link do #04 odcinka
Czego dowiedziałem się z tego odcinka?
Rozmowa z Piotrem rozjaśniła mi wiele w temacie data warehouse. Dowiedziałem się, że hurtownie danych służą do analizowania dużej ilości danych, które te przetwarzają w optymalny i efektywny sposób.
Jednak co warto wiedzieć, takie hurtownie w chmurze są stosunkowo drogie. Dlatego klienci wybierają często model data-lakehouse, który pozwala oddzielić “compute od storage”.
Ten pierwszy ze sposobów pozwala na spore oszczędności kosztów. Dalsze optymalizacje są możliwe przez odpowiednie rozłożenie danych na warstwy (raw, bronze, silver, gold).
Drugim sposobem na optymalizację kosztów jest wykorzystanie modelu ELT, zamiast ETL. Czyli, takiego gdzie chmura zajmuje się transformowaniem danych.
Co ważne, powinniśmy pamiętać, że hurtowania danych nie służy do wyciągania wniosków real time. Do tego zadania potrzebujemy nieco innej logiki np. oprogramowania, czy dedykowanego systemu.
Kolejnym tematem jest kwestia wizualizacji danych. I jak się dowiedziałem, jest to całkiem osobna tematyka, rozwijana w 3 niezależnych specjalizacjach:
- BI – prezentowane wysokopoziomowe spojrzenie (np. w postaci wykresów) -> i tu zachęcam do przesłuchania odcinka O Business Intelligence w Power BI
- Data Analyst -> używa sql, python, r do analizy ad-hoc
- Data Scientist -> ML wykorzystywany do odpowiadania na pytania o przyszłość
Gdzie posłuchasz odcinka nt. pracy freelancera?
ps. Obiecane materiały!
- Zerknijcie na Instagram Piotrka -> Przejdź na Instagram
- Azure Synapse Analytics -> Przeczytaj o Azure Synapse
- Redshift -> Przeczytaj o Redshift
- ETL -> https://pl.wikipedia.org/wiki/ETL
- ELT -> https://en.wikipedia.org/wiki/Extract,_load,_transform
- Apache Spark -> https://spark.apache.org/
- Polecany kanał YouTube dot. Databricks -> Oglądaj
- Polecany serwis Silicon Angle
- Mini kurs mailowy Piotra nt. Apache Spark -> Dołącz do kursu
Miłego słuchania!
Znajdziesz mnie na TT @kopieczek_dev oraz na LinkedIn.
Przed nami nowy rozdział! Chmurowisko dokonało połączenia z polskim Software Mind – firmą, która od 20 lat tworzy rozwiązania przyczyniające się do sukcesu organizacji z całego świata…
Grupa Dynamic Precision podjęła decyzję o unowocześnieniu swojej infrastruktury. Razem z Oracle Polska prowadzimy migrację aplikacji firmy do chmury OCI.
Najnowsze spotkanie CHM Live będzie poświęcone tematyce AI i temu jak sztuczna inteligencja przenika do codzienności każdego z nas. Gościem Damiana Mazurka będzie Estera Kot.
Przed nami nowy rozdział! Chmurowisko dokonało połączenia z polskim Software Mind – firmą, która od 20 lat tworzy rozwiązania przyczyniające się do sukcesu organizacji z całego świata…
Zapisz się do naszego newslettera i
bądź z chmurami na bieżąco!
z chmur Azure, AWS i GCP, z krótkimi opisami i linkami.