#04 Podcast: Hurtownie danych w praktyce

Krzysztof Kopieczek

26/11/2022• 5 min

Niedawno ukazał się kolejny odcinek podcastu z serii „Praca w Chmurach… i nie tylko”, którą przygotowałem z myślą o developerach, architektach i pasjonatach tematyki chmurowej.

Czwarty odcinek: O hurtowniach danych

W tym odcinku moim Gościem był Piotr Kalinowski, Cloud Data Engineer & Consultant w firmie Chmurowisko.
Współpracował z największymi instytucjami finansowymi w Polsce, zajmując się architekturą i tworząc zaawansowane systemy przetwarzania danych. W swoim dorobku posiada wiele projektów z obszaru Fintech, Machine Learning czy AI z wykorzystaniem technologii tj. Amazon Web Services, Microsoft Azure, czy Alibaba Cloud. Trener Szkoły Chmury. Prywatnie bloger, tancerz i “głowa rodziny”.

O czym rozmawialiśmy? Między innymi o tym, że big data, machine learning, data science czy data warehouse… to nie tylko buzzwordy, ale rozwiązania, które przynoszą wymierne korzyści organizacjom.

Z Piotrem, który ma na swoim koncie wiele projektów w tych technologiach próbowaliśmy nieco odczarować w/w pojęcia przytaczając doświadczenia mojego Gościa z pracy z nowoczesnymi hurtowniami danych.

Słuchaj na Spotify! -> Link do #04 odcinka

Czego dowiedziałem się z tego odcinka?

Rozmowa z Piotrem rozjaśniła mi wiele w temacie data warehouse. Dowiedziałem się, że hurtownie danych służą do analizowania dużej ilości danych, które te przetwarzają w optymalny i efektywny sposób.

Jednak co warto wiedzieć, takie hurtownie w chmurze są stosunkowo drogie. Dlatego klienci wybierają często model data-lakehouse, który pozwala oddzielić “compute od storage”.

Ten pierwszy ze sposobów pozwala na spore oszczędności kosztów. Dalsze optymalizacje są możliwe przez odpowiednie rozłożenie danych na warstwy (raw, bronze, silver, gold).

Drugim sposobem na optymalizację kosztów jest wykorzystanie modelu ELT, zamiast ETL. Czyli, takiego gdzie chmura zajmuje się transformowaniem danych.

Co ważne, powinniśmy pamiętać, że hurtowania danych nie służy do wyciągania wniosków real time. Do tego zadania potrzebujemy nieco innej logiki np. oprogramowania, czy dedykowanego systemu.

Kolejnym tematem jest kwestia wizualizacji danych. I jak się dowiedziałem, jest to całkiem osobna tematyka, rozwijana w 3 niezależnych specjalizacjach:

BI – prezentowane wysokopoziomowe spojrzenie (np. w postaci wykresów) -> i tu zachęcam do przesłuchania odcinka O Business Intelligence w Power BI
Data Analyst -> używa sql, python, r do analizy ad-hoc
Data Scientist -> ML wykorzystywany do odpowiadania na pytania o przyszłość

Gdzie posłuchasz odcinka nt. pracy freelancera?

ps. Obiecane materiały!

Zerknijcie na Instagram Piotrka -> Przejdź na Instagram
Azure Synapse Analytics -> Przeczytaj o Azure Synapse
Redshift -> Przeczytaj o Redshift
ETL -> https://pl.wikipedia.org/wiki/ETL
ELT -> https://en.wikipedia.org/wiki/Extract,_load,_transform
Apache Spark -> https://spark.apache.org/
Polecany kanał YouTube dot. Databricks -> Oglądaj
Polecany serwis Silicon Angle
Mini kurs mailowy Piotra nt. Apache Spark -> Dołącz do kursu

Miłego słuchania!
Znajdziesz mnie na TT @kopieczek_dev oraz na LinkedIn.

Krzysztof Kopieczek

AKTUALNOŚCI

13/06/2023• 2 min.

AI w średniej firmie: Tworzenie przyszłości przy użyciu LLM.

Już 21 czerwca dowiesz się, jak możesz wykorzystać AI w Twojej firmie. Damian Mazurek i Piotr Kalinowski wprowadzą Cię w świat sztucznej inteligencji i LLM.

Zobacz wpis

AKTUALNOŚCI

14/02/2023• 2 min

Chmurowisko łączy się z Software Mind

Przed nami nowy rozdział! Chmurowisko dokonało połączenia z polskim Software Mind – firmą, która od 20 lat tworzy rozwiązania przyczyniające się do sukcesu organizacji z całego świata…

Zobacz wpis

AKTUALNOŚCI

09/11/2022• 5 min

Migracja systemu Dynamic Precision do Oracle Cloud

Grupa Dynamic Precision podjęła decyzję o unowocześnieniu swojej infrastruktury. Razem z Oracle Polska prowadzimy migrację aplikacji firmy do chmury OCI.

Zobacz wpis

14/08/2023

AI i Machine Learning: Rewolucja przyszłości przemysłu.

Czytaj więcej

27/07/2023

Jak usługi AI Cloud mogą przyspieszyć transformację cyfrową.

Czytaj więcej

13/07/2023• 5 min

Machine Learning dla Liderów: Jak ML Napędza Biznes?

Czytaj więcej

AKTUALNOŚCI

AI w średniej firmie: Tworzenie przyszłości przy użyciu LLM.

Już 21 czerwca dowiesz się, jak możesz wykorzystać AI w Twojej firmie. Damian Mazurek i Piotr Kalinowski wprowadzą Cię w świat sztucznej inteligencji i LLM.

Zobacz wpis

Zapisz się do naszego newslettera i
bądź z chmurami na bieżąco!

Zostaw nam swój e–mail a co miesiąc dostaniesz spis najważniejszych nowości
z chmur Azure, AWS i GCP, z krótkimi opisami i linkami.

Wyrażam zgodę na przetwarzanie moich danych przez Administratora Chmurowisko Sp. z o.o. w celu przesyłania na podany przez mnie adres e-mail subskrybowanego Newslettera.*Znam treść klauzuli informacyjnej, w tym celu i sposobu przetwarzania danych osobowych oraz prawo dostępu do treści swoich danych, prawo ich poprawiania oraz możliwości (zobacz więcej)

#04 Podcast: Hurtownie danych w praktyce

Niedawno ukazał się kolejny odcinek podcastu z serii „Praca w Chmurach… i nie tylko”, którą przygotowałem z myślą o developerach, architektach i pasjonatach tematyki chmurowej.

Czwarty odcinek: O hurtowniach danych

Czego dowiedziałem się z tego odcinka?

Gdzie posłuchasz odcinka nt. pracy freelancera?

ps. Obiecane materiały!

Zapisz się do naszego newslettera ibądź z chmurami na bieżąco!

Zapisz się do naszego newslettera i
bądź z chmurami na bieżąco!