Zmniejsz koszty archiwizacji dzięki bezserwerowej archiwizacji danych

18 sierpnia 2023

Ze względów regulacyjnych likwidacja podstawowych systemów biznesowych na rynkach usług finansowych i ubezpieczeniowych (FSI) wymaga, aby dane pozostały dostępne przez wiele lat po wycofaniu aplikacji. Tradycyjnie firmy FSI albo zlecały archiwizację danych zewnętrznym usługodawcom, którzy utrzymywali repliki aplikacji, albo kupowały oprogramowanie dostawcy do wyszukiwania i wizualizacji danych archiwalnych.

Za pośrednictwem tego artykułu autorzy chcą przedstawić bardziej opłacalną opcję bezserwerowej archiwizacji danych w Amazon Web Services (AWS). Z ich doświadczenia wynika, że ​​możesz zbudować własne rozwiązanie chmurowe na Amazon Simple Storage Service (Amazon S3) za jedną piątą ceny alternatywnych rozwiązań innych firm. Jeśli wycofujesz starsze podstawowe systemy biznesowe, rozważ bezserwerową archiwizację danych w celu obniżenia kosztów przy jednoczesnym zachowaniu zgodności z przepisami.

Bezserwerowa archiwizacja i odzyskiwanie danych

Nowoczesne rozwiązania archiwizacyjne podążają za zasadami nowoczesnych aplikacji:

  • Programowanie w pierwszej kolejności bez serwera w celu zmniejszenia kosztów związanych z zarządzaniem.
  • Natywne dla chmury, aby wykorzystać natywne możliwości usług AWS, takie jak tworzenie kopii zapasowych lub odzyskiwanie po awarii, w celu uniknięcia niestandardowej kompilacji.
  • Wycena oparta na zużyciu, ponieważ dane archiwalne są zużywane nieregularnie.
  • Szybkość dostawy, ponieważ zarówno operacje wdrożeniowe, jak i archiwizacyjne muszą być wykonywane szybko, aby spełnić wymogi prawne.
  • Elastyczne zasady przechowywania danych można egzekwować w sposób zautomatyzowany.

Usługi AWS Storage i Analytics oferują niezbędne elementy składowe nowoczesnego, bezserwerowego rozwiązania do archiwizacji i wyszukiwania.

Archiwizację danych można wdrożyć na bazie Amazon S3 i AWS Glue.

  1. Warstwy pamięci masowej Amazon S3 umożliwiają różne zasady przechowywania danych i umowy dotyczące poziomu usług (SLA) odzyskiwania. Możesz migrować dane do Amazon S3 za pomocą AWS Database Migration Service; w przeciwnym razie rozważ inną usługę przesyłania danych, taką jak AWS DataSync lub AWS Snowball.
  2. AWS Glue crawlers automatycznie wnioskują schematy baz danych i tabel z danych w Amazon S3 i przechowują powiązane metadane w AWS Glue Data Catalog.
  3. Amazon CloudWatch monitoruje wykonywanie crawlerów AWS Glue i powiadamia o awariach.

Rysunek nr 1 przedstawia przegląd rozwiązania.

Zmniejsz koszty archiwizacji dzieki bezserwerowej archiwizacji danych

Po skatalogowaniu danych archiwalnych Amazon Athena może być używany do bezserwerowych operacji wyszukiwania danych przy użyciu standardowego SQL.

  1. Amazon API Gateway odbiera żądania pobrania danych i ułatwia integrację z innymi systemami poprzez REST, HTTPS lub WebSocket.
  2. AWS Lambda odczytuje dane/szablony parametryzacyjne z Amazon S3 w celu konstruowania zapytań SQL. Alternatywnie szablony zapytań można przechowywać jako wpisy klucz-wartość w sklepie NoSQL, takim jak Amazon DynamoDB.
  3. Funkcje lambda wyzwalają Athenę za pomocą skonstruowanego zapytania SQL.
  4. Athena używa AWS Glue Data Catalog do pobierania metadanych tabeli dla danych Amazon S3 (archiwalnych) i zwracania wyników zapytania SQL.

Jak autorzy zbudowali bezserwerową archiwizację danych

We wczesnej ocenie „zbuduj lub kup” porównano produkty dostawców z niestandardowymi rozwiązaniami wykorzystującymi Amazon S3, AWS Glue i interfejs użytkownika do pobierania i wizualizacji danych.

Całkowity koszt posiadania w okresie 10 lat jednego podstawowego systemu ubezpieczeniowego (Policy Admin System) wyniósł 0,25 mln USD na zbudowanie i uruchomienie niestandardowego rozwiązania w AWS w porównaniu z ponad 1,1 mln USD w przypadku alternatywnych rozwiązań innych firm. Przewaga kosztowa wdrożenia niestandardowego rozwiązania wynikała z wydajności programowania przy użyciu usług AWS. Niższe koszty eksploatacji wynikały z mniejszej częstotliwości korzystania z archiwów i płacenia tylko za to, z czego korzystasz.

Rozwiązanie do archiwizacji danych zostało zaimplementowane z usługami AWS (Rysunek nr 2):

  1. Usługa Amazon S3 służy do utrwalania danych archiwalnych w formacie Parquet (zoptymalizowanym pod kątem analiz i skompresowanym w celu zmniejszenia przestrzeni dyskowej), który jest ładowany z podstawowego systemu ubezpieczeniowego. Źródłem danych archiwalnych był AS400/DB2 i przeniesiony za pomocą Informatica Cloud do Amazon S3.
  2. AWS Glue crawlers wnioskują schemat bazy danych z obiektów w Amazon S3 i tworzą tabele w AWS Glue dla danych wycofanej aplikacji.
  3. 3. Funkcje lambda (Python) usuwają rekordy danych na podstawie zasad przechowywania skonfigurowanych dla każdej domeny, takich jak klienci, zasady, roszczenia i pokwitowania. Codzienna praca (Control-M) inicjuje proces retencji.

Zmniejsz koszty archiwizacji dzieki bezserwerowej archiwizacji danych

Operacje pobierania są formułowane i wykonywane za pomocą funkcji Pythona w Lambdzie. Następujące zasoby AWS implementują logikę pobierania:

  1. Athena jest używana do uruchamiania zapytań SQL w tabelach AWS Glue dla wycofanej aplikacji.
  2. Funkcje lambda (Python) budują i wykonują zapytania do pobierania danych. Funkcje renderują fragmenty HMTL przy użyciu silnika szablonów Jinja i wyników zapytań Athena, zwracając wybrany szablon wypełniony żądanymi danymi archiwalnymi. Wykorzystanie Jinja jako silnika szablonów poprawiło szybkość dostarczania i zmniejszyło uciążliwe zmiany frontendu i backendu podczas modelowania operacji pobierania o ~30% ze względu na oddzielenie warstw aplikacji. W rezultacie inżynierowie muszą tylko zbudować zapytanie Athena z połączonym szablonem Jinja.
  3. Amazon S3 przechowuje konfigurację szablonów i zapytania (pliki JSON) wykorzystywane do parametryzacji zapytań.
  4. Amazon API Gateway służy jako pojedynczy punkt wejścia dla wywołań API.

Interfejs użytkownika do pobierania i wizualizacji danych jest zaimplementowany jako aplikacja internetowa z wykorzystaniem biblioteki React JavaScript (z treścią statyczną na Amazon S3) oraz Amazon CloudFront używanej do dostarczania treści internetowych.

Rozwiązanie do archiwizacji umożliwiło 80 przypadków użycia z 60 zapytaniami i zmniejszyło pamięć masową z trzech terabajtów w źródle do zaledwie 35 gigabajtów w Amazon S3. Sukces wdrożenia zależał od następujących kluczowych czynników:

  • Odpowiednie sponsorowanie ze strony biznesu we wszystkich obszarach (roszczenia, zgodność itp.)
  • Definicja umów SLA w celu reagowania na sądy, organy regulacyjne itp.
  • Minimalne wykonalne i obowiązkowe podejście
  • Wczesne wizualizacje prototypów (szybkie awarie)

Wnioski

Tradycyjnie firmy FSI polegały na produktach dostawców do archiwizacji danych. Za pomocą tego artykułu autorzy zbadali, jak zbudować skalowalne rozwiązanie na Amazon S3 i omówili kluczowe kwestie związane z implementacją. Pokazali, że usługi AWS umożliwiają firmom FSI zbudowanie bezserwerowego rozwiązania do archiwizacji przy jednoczesnym osiągnięciu i utrzymaniu zgodności z przepisami przy niższych kosztach.

Źródło: AWS

Case Studies
Referencje

Z przyjemnością polecamy firmę Hostersi, z którą mieliśmy przyjemność współpracować przy okazji wdrożenia skalowalnej infrastruktury w Amazon Web Services, opartej o technologię Kubernetes i metodykę DevOps.  Hostersi okazali się niezwykle proaktywnym partnerem, który nie tylko wdrażał wskazane rozwiązania, ale proponował optymalne narzędzia i technologie, które sprawiły, że efekt wdrożenia jest dla nas w pełni satysfakcjonujący. Polecamy!

Grzegorz Lentzy
IT Director LINK Mobility
W skrócie o nas
Specjalizujemy się w dostarczaniu rozwiązań IT w obszarach projektowania infrastruktury serwerowej, wdrażania chmury obliczeniowej, opieki administracyjnej i bezpieczeństwa danych.