AWS Miał Awarię… i bardzo się z tego powodu cieszę!

Mirek Burnejko

06/03/2017

AWS miał awarię. Co teraz? Koniec świata. Jak żyć?
Normalnie. Ba. Nawet dobrze, że tak się stało.
Zacznijmy jednak od początku.

AWS miał awarię

Co się wydarzyło 28 lutego?

O 9:37 osobnik X użył złego zestawu poleceń. O 13:54 wszystko wróciło do normy.

Error

W międzyczasie usługa S3 – odpowiadająca za przechowywanie plików w regionie Northern Virginia była niedostępna. Tu więcej o tej sytuacji. Pliki nie zniknęły, ale zapisy i odczyty odbywały się z problemem, unieruchamiając pół Internetu.

Firmy na swoich stronach z raportami zwalały winę na dostawcę usług – jak np. moja ulubiona Canva (która to opóźniła publikację mojego vloga).

pasted image 0 2

Firmy te powinny napisać na swoich stronach: Daliśmy ciała w projektowaniu naszej aplikacji. Przepraszamy za zaistniały problem.

Everything fails all the time

Te słowa wypowiedział Werner Vogels – CTO Amazon. Słowa te oddają ważny element współczesnego świata IT. Wszystko ulega awarii. Dostawcy chmury podając dostępność na poziomie X (często 99,99% w skali roku) nie zakładają, że usługa będzie działała cały czas. Zakładają, że czasami stanie się coś złego.

Pracownicy IT powinni przestać narzekać na dostawców IaaS, PaaS, SaaS, ale świadomie podejmować swoje decyzje i zamieniać swoje DUŻE wypłaty na systemy, które są odporne na awarię środowiska, które nie zapewnia 100% dostępności.

pasted image 0 1

Jednak nie jest to takie proste. Potrzebna jest wiedza, potrzebne jest zrozumienia jak działa chmura, potrzebna jest wiedza jak zaprojektować system w środowisku muli-region, potrzebna są pieniądze na podwójne standardy, potrzebni są managerowie, którzy to rozumieją…

A może nic z tych rzeczy nie jest potrzebne?

Może dalej powinniśmy budować tak jak budujemy, zwalając na dostawcy chmur publicznych?

Brzmi jak głupia idea, ale jednak coś w niej jest. Odpowiem na to pytanie później.

Dlaczego cieszę się z awarii AWS?

To się już więcej nie powtórzy.

Z chmurami publicznymi jest jak z liniami lotniczymi. Po awarii wykonywane są wszelakie możliwe kroki, aby takiej sytuacji już nie dopuścić. Każda awaria przybliża nas do bardziej bezpiecznego korzystania.

Żadne dane nie zostały utracone.

Co utwierdza mnie w przekonaniu, że sposób zapisu i przechowywania danych jest na najwyższym poziomie.

Obnażyło to błędy architektoniczne wielu firm.

Wspominałem o tym. Zła architektura firm, które wyceniane są w setkach milionów dolarów, to coś czemu warto się przyjrzeć. Jeżeli godzimy się na wykorzystywanie jednego regionu lub jednej zony, jednego web serwisu, to wiedzmy co się za tym kryje.

Pokazało jak przezroczystość jest ważna.

Przyznać się do błędu pracownika to nie lada wyczyn. Można było to ukryć. Jednak każdy, zdrowo myślący człowiek wie, że problemem nie był tu człowiek, lecz system, który umożliwił na wprowadzenie złego parametru. Pisanie o czymś takim świadczy o dużej dojrzałości firmy. Tu jeden minus – dashboard nie pokazywał awarii od razu, gdy awaria wystąpiła.

Wykazało solidarność dostawców chmury.

Nie słyszałem (po za jednym komentarzem) uszczypliwych uwag od innych dostawców chmury. To się zdarzyło (zdarzy się) każdemu z nich. Wspólne budowanie świadomości jest bardzo ważne.

Jak się zabezpieczyć przed kolejną awarią?

Ucz się.

Często problemem w architekturze takiej, a nie innej (a tym bardziej w komentarzach w gazetach) jest brak zrozumienia jak działa dana chmura. Brak zrozumienia czym jest region, czy zmiana w danym regionie wpływa na inny region, czy dane między regionami się przenoszą. Zauważ, że nie działał tylko jeden region… jeden z czternastu.

Testuj.

Jeżeli Twoja aplikacja jest mega krytyczna, to może czas przetestować, “co się stanie gdy”. Łatwo napisać własne rozwiązanie lub skorzystać z pakietu Netflix – Simian Army.

pasted image 0 3

Testuj awarie, szczególnie w poniedziałek o 14:00. Wtedy będziesz gotowy na awarie, a Twoi ludzie będą pracować z większą pewnością.

Pomyśl o środowisku multi-cloud (chociaż ostrożnie).

Tu się nie rozpędzajmy. Czasami będzie to dobre rozwiązanie, ale miejmy wiedzę o ograniczeniach. Nie zawsze skorzystamy z przewagi technologicznej dostawcy A. Nie zawsze będzie łatwo zbudować wiedzę o dostawcy B. Pomagają kontenery, pomaga wejście w wyższą warstwę, ale nie zawsze to najlepsze rozwiązanie. (stary obrazek z architekturą Auth0)

pasted image 0

Nic nie rób i zwolnij ludzi.

Nie żartuję. Ostatnio usłyszałem, że niektóre firmy mają politykę polegającą na ograniczaniu kosztów w braku budowania architektury odpornej na awarię, budując procedury pisania dobrych artykułów, gdy pojawia się awaria, zwalając na danego dostawcę.

Może to również rozwiązanie dla Ciebie. Olać inwestycję w dobre IT, a zainwestować w dobre działy Public Relations!

Mirek Burnejko

Rozmawiam w języku Amazon Web Services, Microsoft Azure i Google Cloud Platform.

AKTUALNOŚCI

13/06/2023• 2 min.

AI w średniej firmie: Tworzenie przyszłości przy użyciu LLM.

Już 21 czerwca dowiesz się, jak możesz wykorzystać AI w Twojej firmie. Damian Mazurek i Piotr Kalinowski wprowadzą Cię w świat sztucznej inteligencji i LLM.

Zobacz wpis

AKTUALNOŚCI

14/02/2023• 2 min

Chmurowisko łączy się z Software Mind

Przed nami nowy rozdział! Chmurowisko dokonało połączenia z polskim Software Mind – firmą, która od 20 lat tworzy rozwiązania przyczyniające się do sukcesu organizacji z całego świata…

Zobacz wpis

AKTUALNOŚCI

09/11/2022• 5 min

Migracja systemu Dynamic Precision do Oracle Cloud

Grupa Dynamic Precision podjęła decyzję o unowocześnieniu swojej infrastruktury. Razem z Oracle Polska prowadzimy migrację aplikacji firmy do chmury OCI.

Zobacz wpis

14/08/2023

AI i Machine Learning: Rewolucja przyszłości przemysłu.

Czytaj więcej

27/07/2023

Jak usługi AI Cloud mogą przyspieszyć transformację cyfrową.

Czytaj więcej

13/07/2023• 5 min

Machine Learning dla Liderów: Jak ML Napędza Biznes?

Czytaj więcej

AKTUALNOŚCI

AI w średniej firmie: Tworzenie przyszłości przy użyciu LLM.

Już 21 czerwca dowiesz się, jak możesz wykorzystać AI w Twojej firmie. Damian Mazurek i Piotr Kalinowski wprowadzą Cię w świat sztucznej inteligencji i LLM.

Zobacz wpis

Zapisz się do naszego newslettera i
bądź z chmurami na bieżąco!

Zostaw nam swój e–mail a co miesiąc dostaniesz spis najważniejszych nowości
z chmur Azure, AWS i GCP, z krótkimi opisami i linkami.

Wyrażam zgodę na przetwarzanie moich danych przez Administratora Chmurowisko Sp. z o.o. w celu przesyłania na podany przez mnie adres e-mail subskrybowanego Newslettera.*Znam treść klauzuli informacyjnej, w tym celu i sposobu przetwarzania danych osobowych oraz prawo dostępu do treści swoich danych, prawo ich poprawiania oraz możliwości (zobacz więcej)

AWS Miał Awarię… i bardzo się z tego powodu cieszę!

Co się wydarzyło 28 lutego?

Everything fails all the time

Dlaczego cieszę się z awarii AWS?

Jak się zabezpieczyć przed kolejną awarią?

Zapisz się do naszego newslettera ibądź z chmurami na bieżąco!

Zapisz się do naszego newslettera i
bądź z chmurami na bieżąco!